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内 容 提 要 


本 书 是 使 用 Spark 进行 大 规模 数据 分 析 的 实战 宝典 ， 由 知名 数据 科学 家 撰写 。 本 书 在 第 1 版 
的 基础 上 ， 针 对 Spark 近年 来 的 发 展 ， 对 样 例 代码 和 所 使 用 的 资料 进行 了 大 量 更 新 。 新 版 Spark 使 
用 了 全 新 的 核心 API，MLlib 和 Spark SQL 两 个 子 项 目 也 发 生 了 较 大 变化 ， 本 书 为 关注 Spark 发 展 
趋势 的 读者 提供 了 与 时 俱 进 的 资料 ， 例 如 Dataset 和 DataFrame 的 使 用 ， 以 及 与 DataFrame API 
高 度 集成 的 Spark ML API。 

本 书 适 合 从 事 数据 分 析 的 各 类 专业 人 员 阅 读 。 
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开发 简单 ， 并 且 能 同时 兼顾 批 处 理 


数据 的 爆炸 式 增 长 和 隐藏 在 这 些 数据 
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背后 的 商业 价值 催生 了 一 代 又 一 代 的 大 数据 处 理 技 











。 十 余年 前 Hadoop 横 空 出 世 ，Doug Cutting 先生 将 谷歌 的 MapReduce 思想 用 开源 的 方式 
实现 出 来 ， 由 此 拉 开 了 基于 MapReduce 的 大 数据 处 理 框 架 在 企业 中 应 用 的 序幕 。 近 年 来 ， 
Hadoop 生态 系统 又 发 展 出 以 Spark 为 代表 的 新 计算 框架 。 相 比 MapReduce，Spark 速度 快 ， 


























E 和 实时 数据 分 析 。Spark 起 源 于 加 州 大 学 伯克利 分 校 的 


AMPLab，Cloudera 公司 作为 大 数据 市 场 上 的 撼 楚 ， 很 早 就 开始 将 Spark 推广 到 广大 企业 级 
客户 并 积累 了 大 量 的 经 验 。Advanced Analysis with Spa 天 一 书 正 是 这 些 经 验 的 结晶 。 另 一 方 
面 ， 企 业 级 用 户 在 引入 Spark 技术 时 碰 到 的 最 大 难题 之 一 就 是 能 够 灵活 应 用 Spark 技术 的 人 


二 














潜 乏 。 故 少 成 与 图 灵 公 司 将 Advanced Analysis with Spark 翻译 成 中 文 ， 让 国内 读者 第 一 时 
间 用 母语 感受 Spark 这 一 新 技术 在 数据 分 析 和 处 理 方面 的 魔力 ， 实 在 是 国内 技术 圈 的 幸 事 。 























能 为 本 书 作 序 推荐 ， 也 算是 为 国内 企业 更 好 地 应 用 Spark 技术 尽 自己 的 一 份 力量 ! 


本 书 开篇 介绍 了 Spark 的 基 而 


多 


出 来 。 在 介绍 一 个 主题 时 ， 并 不 是 一 开始 就 给 出 最 终 方案 ， 而 是 先 给 出 一 个 最 初 并 不 完善 








图 书 只 着 重 描述 最 终 方案 不 同 ， 本 和 








上 知识 ， 然 后 详细 介绍 了 如 何 将 Spark 应 用 到 各 个 行业 。 与 许 





多 作者 在 介绍 案例 时 把 解决 问题 的 整个 过 程 也 展现 了 











的 方案 ， 然 后 指出 方案 的 不 足 ， 引 导读 者 思考 并 逐步 改进 ， 最 终 得 出 一 个 相对 完善 的 方 
案 。 这 体现 了 工程 问题 的 解决 思路 ， 也 体现 了 大 数据 分 析 是 一 个 迭代 的 过 程 。 这 样 的 论述 


方式 更 能 激发 读者 的 思考 ， 这 一 点 实在 难能可贵 。 
本 书 英文 版 自 第 1 版 出 版 以 来 ， 在 3 











亚马逊 网 站 大 数据 分 析 类 图 书 中 一 直 名 列 前 茅 ， 而 且 获 





得 的 多 为 五 星 级 评价 ， 可 见 国外 读者 对 该 书 的 喜爱 。 本 书 中 文 版 译 者 化 少 成 技术 扎实 ,在 
英特尔 和 Cloudera 工作 期 间 带领 团队 成 功 实施 过 许多 国内 标杆 大 数据 平台 项 目 ， 最 近 两 年 
又 转战 万 达 科 技 集团 大 数据 中 心 从 零 到 一 构建 PB 级 大 数据 平台 并 支撑 业务 落地 ， 而 且 其 
英语 功底 也 相当 扎实 ， 此 外 我 偶然 得 知 他 还 是 国内 少数 通过 高 级 口译 考试 的 专业 人 才 。 所 
以 本 书 的 中 文 版 交 给 压 少 成 翻译 实在 是 件 让 人 欣慰 的 事情 。 本 书 中 文 版 初稿 也 证 实 了 我 的 
判断 ， 不 仅 保持 了 英文 版 的 风格 ， 而 且 语言 也 十 分 流畅 。 如 果 你 了 解 Scala 语言 ， 还 有 一 
些 统计 学 和 机 器 学 习 基 础 ， 那 么 本 书 是 你 学 习 Spark 时 必 有 备 的 图 书 之 一 ! 


一 一 首 凯 翔 ， 思 科 中 国 研 发 公司 首席 技术 官 ， 前 Cloudera 公司 副 总 裁 
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译 者 序 


大 数据 是 这 几 年 科技 和 应 用 领域 炙手可热 的 话题 ， 而 Spark 又 是 大 数据 领域 里 最 活跃 的 技 


术 。 





随 着 人 工 智 能 的 嘱 起 ， 业 内 对 大 数据 的 需求 不 再 局 限于 一 般 意 义 上 的 大 数据 存储 、 加 





工 和 分 析 ， 如 何 挖掘 大 数据 的 湾 在 价值 成 为 新 的 热点 。 本 书 四 位 作者 均 在 Cloudera 公司 担 
任 过 数据 科学 家 ， 长 期 为 客户 提供 专业 的 数据 分 析 和 挖掘 服务 。 可 以 说 ， 本 书 的 出 版 将 为 
Spark 在 数据 分 析 和 挖掘 领域 起 到 巨大 的 推动 作用 。 


同时 我 们 也 注意 到 ， 国 内 介绍 Spark 数据 分 析 方 面 的 图 书 还 比较 匮乏 ， 而 且 许 多 图 书 都 停 


留 在 源 代 码 研 究 的 层面 上 。 当 然 ， 这 些 书 中 也 不 乏 非常 优秀 的 作品 ， 但 我 们 认为 Spark 真 
























































正 的 力量 在 于 其 开发 的 大 数据 应 用 。 所 以 早 在 本 书 还 处 于 初期 编写 过 程 中 时 ， 我 们 就 自 告 
奋勇 和 作者 联系 中 文 版 事宜 ， 希 望 以 此 为 中 国 的 大 数据 分 析 事 业 略 尽 绵 力 。 


本 书 在 翻译 过 程 中 得 到 了 许多 人 的 帮助 。 首 先 要 感谢 我 在 Cloudera 公司 的 前 同事 ， 也 就 是 


本 























BB 的 4 位 作者 。 在 本 书 的 翻译 过 程 中 ， 由 于 不 同 语言 的 习惯 问题 ，4 位 作者 桑 迪 里 扎 、 


于 里 . 莱 瑟 森 、 肖 恩 欧文 和 乔 希 . 威 尔 斯 花 了 许多 时 间 和 我 交流 。 本 人 之 所 以 有 垃 负 责 


本 














区 的 中 文 版 翻译 ， 也 是 承蒙 肖 恩 欧文 的 引荐 。 其 次 要 感谢 星 环 信息 科技 有 限 公司 创始 


人 孙 元 浩 先 生 将 我 带 入 到 大 数据 这 个 领域 ， 让 我 的 人 生 轨 迹 发 生变 化 ， 感 谢 思 科 中 国 研 发 
公司 首席 技术 官 苗 凯 翔 博士 在 英特尔 和 Cloudera 工作 期 间 曾 经 给 我 的 指导 ， 让 我 有 了 端正 
的 工作 态度 和 价值 观 ， 感 谢 我 的 前 同事 田 占 凤 博士 和 陈 建 忠 的 鼓励 ， 中 文 版 的 翻译 工作 才 


得 以 开始 。 同 时 本 书 在 翻译 过 程 中 还 得 到 了 Cloudera 公司 中 国 区 前 同事 刘 损 峰 、 麻 君 、 陈 


风 、 
































陈 新 江 、 李 大 超 和 张 莉 侠 的 鼎力 帮助 。 感 谢 图 灵 公 司 的 李 松 峰 、 岳 新 欣 、 温 雪 编 辑 在 











翻译 过 程 中 的 指导 和 仔细 审阅 。 由 于 本 书 的 翻译 都 是 在 周末 完成 的 ， 所 以 特别 感谢 我 的 妻 
子 周 幼 琼 在 每 个 周末 对 我 的 照顾 。 











兢 少 成 


xi 


首先 非常 感谢 裴 少 成 给 我 这 次 机 会 ， 使 我 有 地 成 为 本 书 第 2 版 的 译 者 之 一 。 





其 次 要 感谢 英特尔 大 数据 团队 的 同事 们 ， 是 你 们 带领 我 走 进 了 Spark 的 时 代 。 











最 后 要 感谢 我 的 妻子 和 孩子 对 我 工作 的 理解 和 支持 ， 让 我 腾 
工作 。 


由 于 译 者 水 平 有 限 ， 同 时 本 书 涉 及 许多 课题 ， 所 以 现 有 译文 中 难 





者 能 够 不 将 赐教 ， 发 现 问 题 时 及 烦 和 译 者 联系 。 邮 件 请 发 送 至 
或 qiuxin2012cs@gmail.com。 


出 业余 时 间 完 成 此 次 翻译 








免 存 在 丝 漏 之 处 。 和 希望 读 








gongshaocheng @gmail.com 


苍 鳃 








自从 在 加 州 大 学 伯克利 分 校 创立 Spark 项 目 起 ， 我 就 时 常 心 油 澎 涯 。 不 仅 因为 Spark 可 以 
帮助 人 们 快速 构建 并 行 系统 ， 更 因为 Spark 帮助 了 越 来 越 多 的 人 使 用 大 规模 计算 。 因 此 看 
到 这 本 介绍 Spark 高 级 分 析 的 书 ， 我 非常 欣慰 ! 该 书 由 数据 科学 领域 4 位 专家 桑 迪 、 于 里 、 
肖 恩 和 乔 希 携手 打造 。4 位 作者 研习 Spark 已 入， 他 们 在 本 书 中 跟 读 者 分 享 了 关于 Spark 
的 大 量 精彩 内 容 ， 同 时 本 书 的 案例 部 分 同样 出 众 ! 


对 于 这 本 书 ， 我 最 钟爱 的 是 它 强调 和 案例， 而 且 这 些 案例 都 源 于 现实 数据 和 实际 应 用 。 找 到 
1 个 像样 的 、 能 在 笔记 本 电脑 上 运行 的 大 数据 案例 已 经 很 难 ， 更 媚 论 10 个 了 。 但 本 书 作者 
做 到 了 ! 作者 为 大 家 准备 好 了 一 切 ， 只 等 你 在 Spark 中 运行 它们 。 更 难能可贵 的 是 ， 作 者 
不 仅 讨论 了 核心 算法 ， 更 倾心 于 数据 准备 和 模型 调 优 ， 没 有 这 些 工作 ， 实 际 项 目 中 就 无 法 
得 到 好 的 结果 。 认 真 研 读 此 书 ， 你 应 该 可 以 吸收 这 些 案例 中 的 概念 并 直接 将 其 运用 在 自己 
的 项 目 中 ! 


大 数据 处 理 无 疑 是 当今 计算 领域 最 激动 人 心 的 方向 之 一 ， 发 展 非常 迅猛 ， 新 思想 层 出 不 
穷 。 愿 本 书 能 帮助 你 在 这 个 轩 新 的 领域 中 扬帆 局 航 ! 























































































































Matei Zaharia 
Databricks 公司 CTO 兼 Apache Spark 项 目 副 总 裁 
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到 
ul 


作者 : 桑 迪 . 里 扎 


我 不 希望 我 的 人 生 有 很 多 遗憾 。2011 年 ， 某 个 情 懒 的 时 刻 ， 我 正在 绞 尽 脑 半 地 想 如 何 把 高 
难度 的 离散 优化 问题 最 优 地 分 配给 计算 机 集群 处 理 ， 真 是 很 难 想到 有 什么 好 方法 。 我 的 导 
师 跟 我 讲 ， 他 听 说 有 个 叫 Apache Spark 的 新 技术 ， 可 我 基本 上 没 当 回 事 。Spark 的 想法 大 
好 了 ， 让 人 觉得 有 点 儿 不 靠 谱 。 就 这 样 ， 我 很 快 又 回去 接着 写 MapReduce 的 本 科 毕 业 论 
文 了 。 时 光 芷 亚 ，Spark 和 我 都 渐渐 成 熟 ， 不 过 令 我 望 宇 莫 及 的 是 ，Spark 已 然 成 为 冉冉 之 
星 ， 这 让 人 不 禁 感 疏 “Spark”( 星 星之 火 ) 这 个 双关 语 是 多 么 贴切 。 若 干 年 后 ，Spark 的 
价值 举世 和 丝 知 ! 


Spark 的 前 辈 有 很 多 ， 从 MPI 到 MapReduce。 利 用 这 些 计算 框架 ,我 们 写 的 程序 可 以 充分 
利用 大 量 资源 ， 但 不 需要 关心 分 布 式 系统 的 实现 细节 。 数 据 处 理 的 需求 促进 了 这 些 技术 
框架 的 发 展 。 同 样 ， 大 数据 领域 也 和 这 些 框架 关系 密切 ， 这 些 框架 界定 了 大 数据 的 范围 。 
Spark 有 望 更 进一步 ， 让 写 分 布 式 程序 就 像 写 普通 程序 一 样 。 






























































Spark 能 大 大 提升 BTL 流水 作业 的 性 能 ， 并 把 MapReduce 程序 员 从 每 天 问 天 天 不 灵 、 问 地 
地 不 应 的 绝望 痛苦 中 解救 出 来 。 对 我 而 言 ，Spark 的 激动 人 心 之 处 在 于 ， 它 真正 打开 了 复 
杂 数 据 分 析 的 大 门 。Spark 带 来 了 支持 迭代 式 计算 和 交互 式 探索 的 模式 。 利 用 这 一 开源 计 
算 框架 ， 数 据 科学 家 终于 可 以 在 大 数据 集 上 高 效 地 工作 了 。 

我 认为 数据 科学 教学 最 有 效 的 方法 是 利用 实例 。 为 此 ， 我 和 同事 一 起 编写 了 这 本 关于 实际 
应 用 的 书 ， 希 望 它 能 涵盖 大 规模 数据 分 析 中 最 常用 的 算法 、 数 据 集 和 设计 模式 。 阅 读本 书 
时 不 必 一 页 一 页 地 看 ， 可 以 根据 工作 需要 或 按 兴 趣 直 接 翻 到 相关 章节。 
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本 书 内 容 


第 1 章 结 合 数据 科学 和 大 数据 分 析 的 广阔 背景 来 讨论 Spark。 随 后 各 章 在 介绍 Spark 数据 
分 析 时 都 自 成 一 体 。 第 2 章 通过 数据 清洗 这 一 使 用 场景 来 介绍 用 Spark 和 Scala 进行 数据 
处 理 的 基础 知识 。 接 下 来 儿童 深入 讨论 如 何 将 Spark 用 于 机 器 学 习 ， 介 绍 了 常见 应 用 中 几 
个 最 常用 的 算法 。 甚 余 几 章 则 收集 了 一 些 更 新 颖 的 应 用 ， 比 如 通过 文本 隐 含 语义 关系 来 查 
询 Wikipedia 或 分 析 基 因数 据 。 


第 2 版 说 明 

自 本 书 第 1 版 出 版 以 来 ，Spark 进行 了 一 次 重大 的 版 本 更 新 : 使 用 了 一 个 全 新 的 核心 API; 
MLlib 和 Spark SQL 两 个 子 项 目 也 发 生 了 翻天 覆 地 的 变化 。 第 2 版 根据 新 版 Spark 的 最 佳 
实践 ， 对 样 例 代 码 和 所 使 用 的 资料 进行 了 大 量 更 新 。 


使 用 代码 示例 


补充 材料 (代码 示例 、 练 习 、 勘 误 表 等 ) 可 以 从 https://github.com/sryza/aas 下 载 '。 





























本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 
序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 须 联系 我 们 获得 许可 。 比 如 ， 用 本 书 
的 几 个 代码 片段 写 一 个 程序 就 无 须 获 得 许可 ， 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 
获得 许可 ;引用 本 书 中 的 示例 代码 回答 问题 无 须 获得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产 
品 文档 中 则 需要 获得 许可 。 




















我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包括 书 名 、 
作者 、 出 版 社 和 ISBN。 比 如 :“4dvanced Analytics with Spark by Sandy Ryza, Uri Laserson, 
Sean Owen, and Josh Wills (O’Reilly). Copyright 2015 Sandy Ryza, Uri Laserson, Sean Owen, 
and Josh Wills, 978-1-491-91276-8.” 











如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许可 的 范围 ， 欢 迎 你 通过 permissions@ 
oreilly.com 与 我 们 联系 。 





O’Reilly Safari 


4 S f 。 Safari (前 身 为 Safari Books Online) 是 为 人 企业、 政府、 教育 机 构 和 
由 中 | 四 | | 个 人 提 供 的 会 员 制 培训 和 参考 平台 ， 





注 1: 本 书 中 文 版 勘误 提交 及 资料 下 载 ， 请 访问 本 书 图 灵 社 区 页 面 : http://www.ituring.com.cn/book/ 
2039。 一 一 编者 注 
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会 员 可 以 访问 来 自 250 多 家 出 版 商 的 上 千 种 图 书 、 培 训 视频 、 学 习 路 径 、 互 动 教程 和 精 
选 播放 列表 。 这 些 出 版 商 包 括 O'Reilly Media、Harvard Business Review、Prentice Hall 


Professional、 Addison-Wesley Professional、Microsoft Press、Sams、Que、Peachpit Press、 








Adobe、 Focal Press、 Cisco Press、 John Wiley & Sons、 Syngress、 Morgan Kaufmann、IBM 
Redbooks、 Packt、Adobe Press、 FT Press、Apress、Manning、New Riders、McGraw-Hill、 


Jones & Bartlett、Course Technology， 等 等 。 


欲 知 更 多 信息 ， 请 访问 https://www.safaribooksonline.com/。 
A 3 名 

联系 我 们 

请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 

美国 : 











O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 


北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035 ) 
奥 莱 利 技术 咨询 (北京 ) 有 限 公司 























O’Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘 误 表 、 示 
例 代码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : 
http://shop.oreilly.com/product/0636920056591.do 
对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电子 邮件 到 : 
bookquestions@oreilly.com 
要 了 解 更 多 O’Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : 
http://www.oreilly.com 
我 们 在 Facebook 的 地 址 如 下 : 
https://facebook.com/oreilly 
请 关注 我 们 的 Twitter 动态 : 
https://twitter.com/oreillymedia 
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大 数据 分 析 


作者 : 桑 迪 , 里 


(数据 应 用 ) 就 像 香肠 ， 最 好 别 看 见 它 们 是 怎么 做 出 来 的 
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一 一 Otto von Bismarck 


。 用 数 千 个 特征 和 数 十 亿 个 交易 来 构建 信用 卡 欺诈 检测 模型 
。 向 数 百 万 用 户 智能 地 推荐 数 百 万 产品 

。 通过 模拟 包含 数 百 万 金融 工具 的 投资 组 合 来 评估 金融 风险 
。 轻松 地 操作 成 千 上 万 个 人 类 基因 的 相关 数据 以 发 现 致 病 基因 


5~10 年 前 想 要 完成 上 述 任务 几乎 是 不 可 能 的 。 我 们 说 生活 在 大 数据 时 代 ， 意 思 是 指 我 们 
拥有 收集 、 存 储 、 处 理 大 量 信 息 的 工具 ， 而 这 些 信息 的 规模 以 前 我 们 闻所未闻 。 这 些 能 
力 的 背后 是 许多 开源 软件 组 成 的 生态 系统 ， 它 们 能 利用 大 量 普通 计算 机 处 理 大 规模 数据 。 

















Apache Hadoop 之 类 的 分 布 式 系统 已 经 进入 主流 ， 并 被 广泛 部 署 在 几乎 各 个 领域 的 组 织 里 


但 就 像 铂 刀 和 石头 本 身 并 不 构成 雕塑 一 样 ， 有 了 工具 和 数据 并 不 等 于 就 可 以 做 有 用 的 寻 


o 
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情 。 这 时 我 们 就 需要 数据 科学 了。 雕刻 是 利用 工具 将 原始 石材 变 成 普通 人 都 能 看 慌 的 雕 


塑 ， 数 据 科学 则 是 利用 工具 将 原始 数据 变 成 对 不 懂 数 据 科 学 的 普通 人 有 价值 的 东西 。 





通常 ,“ 做 有 用 的 事情 ” 指 给 数据 加 上 模式 并 用 SQL 来 回答 问题 ， 比 如 :“ 注 册 过 程 中 许多 
用 户 进入 到 第 三 个 页 面 ， 其 中 有 多 少 用 户 年 龄 超过 25 岁 ? ”如 何 架构 一 个 数据 仓库 ， 并 

















组 织 信息 来 回答 此 类 问题 ， 涉 及 的 面 很 广 ， 本 书 不 对 其 细节 过 多 歼 述 。 





























有 时 候 “ 产 生 价值 ”需要 多 付出 一 些 努 力 。SQL 可 能 仍 扮演 重要 角色 ， 但 为 了 处 理 数据 的 
特质 或 进行 复杂 分 析 ， 人 们 需要 一 个 更 灵活 、 更 易 用 的 ， 且 在 机 器 学 习 和 统计 方面 功能 
丰富 的 编程 模式 。 本 书 将 重点 讨论 此 类 型 的 分 析 。 


长 久 以 来 ， 人们 利用 R、PyData 和 Octave 等 开源 框架 可 以 在 小 数据 集 上 进行 快速 分 析 和 
建 模 。 只 需 不 到 10 行 代码 ， 就 可 以 利用 数据 集 的 一 部 分 数据 构建 出 机 器 学 习 模 型 ， 再 利 
用 该 模型 预测 其 余数 据 的 分 类 。 如 果 多 写 儿 行 代码 ， 我 们 还 能 处 理 缺 失 数 据 ， 堂 试 多 个 模 
型 并 从 中 找 出 最 佳 模型 ， 或 者 用 一 个 模型 的 结果 作为 输入 来 拟 合 另 一 个 模型 。 但 如 果 数 据 
集 巨 大 ， 必 须 利 用 大 量 计算 机 来 达到 相同 效果 ， 我 们 该 怎样 做 呢 ? 


一 个 可 能 正确 的 方法 是 简单 扩展 这 些 框架 ， 使 之 能 运行 在 多 台 机 器 上 ， 保 留 框架 的 编程 
模型 ， 同 时 重 写 其 内 核 ， 使 之 在 分 布 式 环境 下 能 顺利 运行 。 但 是 ， 分 布 式 计 算 难 度 大 ， 
我 们 必须 重新 思考 在 单机 系统 中 的 许多 基本 假设 ， 在 分 布 式 环境 下 是 否 依 然 成 立 。 比 如 ， 
由 于 集群 环境 下 数据 需要 在 多 个 节点 间 切 分 ， 网 络 传输 速度 比 内 存 访问 慢 几 个 数量 级 ， 
如 果 算 法 涉及 宽 数据 依赖 ,情况 就 很 糟糕 。 随 着 机 器 数量 的 增加 ， 发 生 故 障 的 概率 也 相 
应 增 大 。 这 些 实际 情况 要 求 编程 模式 适 配 底层 系统 : 编程 模式 要 防止 不 当选 项 ， 并 简化 
高 度 并 行 代 码 的 编写 。 


当然 ， 除 了 像 PyData 和 R 这 样 在 软件 社区 里 表现 优异 的 单机 工具 ， 数 据 分 析 还 用 到 其 他 
工具 。 在 科学 领域 ， 比 如 常常 涉及 大 规模 数据 的 基因 学 ， 人 们 使 用 并 行 计算 框架 已 经 有 
几 十 年 的 历史 了 。 今 天 ， 在 这 些 领 域 处 理 数 据 的 人 大 多 数 都 熟悉 HPC (high-performance 
computing， 高 性 能 计算 ) 集群 计算 环境 。 然 而 ，PyData 和 R 的 问题 在 于 它们 很 难 扩展 。 
同样 ，HPC 的 问题 在 于 它 的 抽象 层次 较 低 ， 难 于 使 用 。 比 如 要 并 行 处 理 一 个 大 DNA 测序 
文件 ， 人 们 需要 手工 将 该 文件 拆 成 许多 小 文件 ， 并 为 每 个 小 文件 向 集群 调度 器 提交 一 个 作 
业 。 如 果 某 些 作业 失败 ， 用 户 需 要 检查 失败 并 手工 重新 提交 。 如 果 操 作 涉 及 整个 数据 集 ， 
比如 对 整个 数据 集 排序 ， 庞 大 的 数据 集 必 须 流入 单个 节点 ， 否 则 科学 家 就 要 用 MPI 这 样 底 
层 的 分 布 式 框架 。 这 些 底层 框架 使 用 难度 大 ， 用 户 必 须 精 通 C 语言 和 分 布 式 / 网 络 系统 。 


为 HPC 环境 编写 的 工具 往往 很 难 将 内 存 数 据 模型 和 底层 存储 模型 独立 开 来 。 比 如 很 多 工 
有 具 只 能 从 单个 流 读 取 POSIX 文件 系统 数据 ， 很 难 自然 并 行 化 ， 不 能 用 于 读 取 数 据 库 等 其 他 
后 台 存储 。 最 近 ，Hadoop 生态 系统 提供 了 抽象 ， 让 用 户 使 用 计算 机 集群 就 像 使 用 单 台 计 
算 机 一 样 。 该 抽象 自动 拆 分 文件 并 在 多 人 台 计 算 机 上 分 布 式 存储 ， 自 动 将 工作 拆 分 成 若干 粒 
度 更 小 的 任务 并 分 布 式 执行 ， 出 错时 自动 恢复 。Hadoop 生态 系统 将 大 数据 集 处 理 涉 及 的 
许多 琐碎 工作 自动 化 ， 并 且 启 动 开销 比 HPC 小 得 多 。 


类 半 尝 耐心 ; 
1.1 数据 科学 面临 的 挑战 
数据 科学 界 有 几 个 硬 道理 是 不 能 违背 的 ，Cloudera 数据 科学 团队 的 一 项 重要 职责 就 是 宣扬 
这 些 硬 道理 。 一 个 系统 要 想 在 海量 数据 的 复杂 数据 分 析 方面 取得 成 功 ， 必 须 明 白 这 些 硬 道 












































































































































































































































2 | 第 1 章 





理 ， 至 少 不 能 违背 。 


第 一 ， 成 功 的 分 析 中 ， 绝 大 部 分 工作 是 数据 预 处 理 。 数 据 是 混乱 的 ， 在 让 数据 产生 价值 之 
前 ， 必 须 对 数据 进行 清洗 、 处 理 、 融 合 、 挖 掘 和 许多 其 他 操作 。 特 别 是 大 数据 集 ， 由 于 人 
们 很 难 直 接 检 查 ， 为 了 知道 需要 哪些 预 处 理 步骤 ， 其 至 需要 采用 计算 方法 。 一 般 情况 下 ， 
即使 在 模型 调 优 阶段 ， 在 整个 数据 处 理 管道 的 各 个 作业 中 ， 花 在 特征 提取 和 选择 上 的 时 间 
比 选 择 和 实现 算法 的 时 间 还 要 多 。 

















比如 ， 在 构建 网 站 欺诈 交易 检测 模型 时 ， 数 据 科学 家 需要 从 许多 可 能 的 特征 中 进行 选择 。 
这 些 特征 包括 必 填 项 、IP 地 址 信息 、 登 录 次 数 、 用 户 浏 览 网 站 时 的 点 击 日 志 等 。 在 将 特征 
转换 成 适用 于 机 器 学 习 算法 的 向 量 时 ， 每 个 特征 可 能 都 会 有 不 同 的 问题 。 系 统 需 要 支持 更 
灵活 的 转换 ， 远 远 不 止 是 将 二 维 双 精 度数 组 转换 成 一 个 数学 模型 那么 简单 。 


第 二 ， 和 迭代 是 数据 科学 的 基础 之 一 。 建 模 和 分 析 经 常 需要 对 一 个 数据 集 进 行 多 次 多 历 。 这 
其 中 一 方面 是 由 机 器 学 习 算法 和 统计 过 程 本 身 造 成 的 。 常 用 的 优化 过 程 ， 比 如 随机 梯度 下 
降 和 最 大 似 然 估 计 ， 在 收敛 前 都 需要 多 次 扫 摘 输入 数据 。 数 据 科学 家 自身 的 工作 流程 也 涉 
及 迭代 。 在 初步 调查 和 理解 数据 集 时 ， 一 个 查询 的 结果 往往 给 下 一 个 查询 带 来 启示 。 在 构 
建 模 型 时 ， 数 据 科学 家 往往 很 难 在 第 一 次 就 得 到 理想 的 结果 。 选 择 正 确 的 特征 ， 挑 选 合 适 
的 算法 ， 运 行 恰当 的 显著 性 测试 ， 找 到 合适 的 超 参数 ， 所 有 这 些 工作 都 需要 反复 试验 。 框 
架 每 次 访问 数据 都 要 读 磁 盘 ， 这 样 会 增加 时 延 ， 降 低 探索 数据 的 速度 ， 限 制 了 数据 科学 家 
进行 试验 的 次 数 。 


第 三 ， 构 建 完 表现 卓越 的 模型 不 等 于 大 功 告 成 。 数 据 科学 的 目标 在 于 让 数据 对 不 懂 数 据 科 
学 的 人 有 用 。 把 模型 以 许多 回归 权 值 的 形式 存 成 文本 文件 ， 放 在 数据 科学 家 的 计算 机 里 ， 
这 样 做 根本 没有 实现 数据 科学 的 目标 。 数 据 推荐 引 苟 和 实时 欺诈 检测 系统 是 最 常见 的 数据 
应 用 。 这 些 应 用 中 ， 模 型 作为 生产 服务 的 一 部 分 ， 需 要 定期 甚至 是 实时 重建 。 


在 这 些 场景 中 ， 有 必要 区 别 是 试验 环境 下 的 分 析 还 是 生产 环境 下 的 分 析 。 在 试验 环境 下 ， 
数据 科学 家 进行 探索 性 分 析 。 他 们 想 理 解 工作 数据 集 的 本 质 。 他 们 将 数据 图 形 化 并 用 各 种 
理论 来 测试 。 他 们 用 各 种 特征 做 试验 ， 用 辅助 数据 源 来 增强 数据 。 他 们 试验 各 种 算法 ， 希 
望 从 中 找到 一 两 个 有 效 算 法 。 在 生产 环境 下 ， 构 建 数据 应 用 时 ， 数 据 科 学 家 进行 操作 式 分 
析 。 他 们 把 模型 打包 成 服务 ， 这 些 服务 可 以 作为 现实 世界 的 决策 依据 。 他 们 跟踪 模型 随时 
间 的 表现 ， 哪 怕 是 为 了 将 模型 准确 率 提高 一 个 百分点 ， 他 们 都 会 精心 调整 模型 并 且 乐 此 不 
疫 。 他 们 关心 服务 SLA 和 在 线 时 间 。 由 于 历史 原因 ， 探 索性 分 析 经 常 使 用 R 之 类 的 语言 ， 
但 在 构建 生产 应 用 时 ， 数 据 处 理 过 程 则 完全 用 Java 或 C++ 重 写 。 


当然 ， 如 果 用 于 建 模 的 原始 代码 也 可 用 于 生产 应 用 ， 那 就 能 节省 每 个 人 的 时 间 。 但 像 R 之 
类 的 语言 运行 缓慢 ， 很 难 将 其 与 生产 基础 设施 的 技术 平台 进行 集成 ， 而 Java 和 C++ 之 类 
的 语言 又 很 难 用 于 探索 性 分 析 。 它 们 缺乏 交互 式 数据 操作 所 需 的 REPL (read-evaluate-print- 
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loop， 读 取 - 计算 -打印 -循环 ) 环境 ， 即 使 是 简单 的 转换 ， 也 需要 写 大 量 代码 。 人 们 迫 
切 需 要 一 个 既 能 轻松 建 模 又 适合 生产 系统 的 框架 。 


1.2 认识 Apache Spark 


该 介绍 Apache Spark 了 。Spark 是 一 个 开源 框架 ， 作 为 计算 引擎 ， 它 把 程序 分 发 到 集 
群 中 的 许多 机 器 ， 同 时 提供 了 一 个 优雅 的 编程 模型 。Spark 源 自 加 州 大 学 伯克利 分 校 的 
AMPLab， 现 在 已 被 捐献 给 了 Apache 软件 基金 会 。 可 以 这 么 说 ， 对 于 数据 科学 家 而 言 ， 真 
正 让 分 布 式 编程 进入 寻常 百姓 家 的 开源 软件 ，Spark 是 第 一 个 。 























了 解 Spark 的 最 好 办 法 莫 过 于 了 解 相 比 于 它 的 前 辈 ， 即 Apache Hadoop 的 MapReduce， 

Spark 有 哪些 进步 。MapReduce 革新 了 海量 数据 的 计算 方式 ， 为 运行 在 成 百 上 千 台 机 器 上 

的 并 行程 序 提供 了 简单 的 编程 模型 。MapReduce 引擎 几乎 可 以 做 到 线性 扩展 : 随 着 数据 

量 的 增加 ， 可 以 通过 增加 更 多 的 计算 机 来 保持 作业 时 间 不 变 。 而 且 MapReduce 是 健壮 的 。 

故障 虽然 在 单 台 机 器 上 很 少 出 现 ， 但 在 数 千 个 市 点 的 集群 上 却 总 是 出 现 。 对 于 这 种 情况 ， 

MapReduce 也 能 妥善 处 理 。 它 将 工作 拆 分 成 多 个 小 任务 ， 能 优雅 地 处 理 失败 的 任务 ， 并 且 
影响 任务 所 属 作业 的 正确 执行 。 












































Spark 继承 了 MapReduce 的 线性 扩展 性 和 容错 性 ， 同 时 对 它 做 了 一 些 重量 级 扩展 。 首 先 ， 
Spark 握 弃 了 MapReduce 先 map 再 reduce 这 样 的 严格 方式 ，Spark 引擎 可 以 执行 更 通用 的 
有 向 无 环 图 (directed acyclic graph，DAG) 算 子 。 这 就 意味 着 ， 在 MapReduce 中 需要 将 中 
间 结 果 写 入 分 布 式 文件 系统 时 ，Spark 能 将 中 间 结 果 直 接 传 到 流水 作业 线 的 下 一 步 。 在 这 
方面 ， 它 类 似 于 Dryad (https://www.microsoft.com/en-us/research/project/dryad/)。Dryad 也 
是 从 MapReduce 衍生 出 来 的 ， 起 源 于 微软 研究 院 。 其 次 ， 它 也 完善 了 这 种 能 力 ， 通 过 提供 
许多 转换 操作 ， 用 户 可 以 更 自然 地 表达 计算 逻辑 。Dryad 更 加 面向 开发 人 员 ， 其 流 式 API 
可 以 做 到 用 几 行 代码 表示 复杂 的 流水 作业 。 


再 次 ，Spark 扩展 了 前 非 们 的 内 存 计 算 能 力 。 它 的 Dataset 和 DataFrame 抽象 使 开发 人 员 将 
流水 处 理 线 上 的 任何 点 物化 在 跨越 集群 节点 的 内 存 中 。 这 样 后 续 步 又 如 果 需 要 相同 数据 集 
就 不 必 重 新 计算 或 从 磁盘 加 载 。 这 个 特性 使 Spark 可 以 应 用 于 以 前 分 布 式 处 理 引 擎 无 法 胜 
任 的 应 用 场景 中 。Spark 非常 适用 于 涉及 大 量 进 代 的 算法 ， 这 些 算法 需要 多 次 遍历 相同 的 
数据 集 。Spark 也 适用 于 反应 式 (reactive) 应 用 ， 这 些 应 用 需要 扫描 大 量 内 存 数据 并 快速 
响应 用 户 的 查询 。 


或 许 最 重要 的 是 ，Spark 契合 了 前 面 提 到 的 数据 科学 领域 的 硬 道理 。 它 认识 到 构建 数据 应 
用 的 最 大 瓶颈 不 是 CPU、 磁盘 或 者 网 络 ， 而 是 分 析 人 员 的 生产 率 。 通 过 将 预 处 理 到 模型 评 
价 的 整个 流水 线 整合 在 一 个 编程 环境 中 ，Spark 大 大 加 速 了 开发 过 程 。 这 一 点 尤为 值得 称 
赞 。Spark 编程 模型 富有 表达 力 ， 在 REPL 下 包装 了 一 组 分 析 库 ， 省 去 了 多 次 往返 IDE 的 
开销 。 而 这 些 开 销 对 诸如 MapReduce 等 框架 来 说 是 无 法 避免 的 。Spark 还 避免 了 采样 和 从 
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Hadoop 分 布 式 文件 系统 (the Hadoop distributed file system，HDFS) 来 回 倒 腾 数据 所 带 来 的 
问题 ， 这 些 了 问题 是 R 之 类 的 框架 经 和 常 遇 到 的 。 分 析 人 员 在 数据 上 做 实验 的 速度 越 快 ， 他 们 
从 数据 中 挖掘 出 价值 的 可 能 性 就 越 大 。 


在 数据 处 理 和 ETL 方面， Spark 的 目标 是 成 为 大 数据 界 的 Python 而 不 是 大 数据 界 的 
MATLAB 。 作 为 一 个 通用 的 计算 引擎 ， 它 的 核心 API 为 数据 转换 提供 了 强大 的 基础 ， 它 独 
立 于 统计 学 、 机 器 学 习 或 矩阵 代数 的 任何 功能 。 它 的 Scala 和 Python API 让 我 们 可 以 用 表 
达 力 极 强 的 通用 编程 语言 编写 程序 ， 还 可 以 访问 已 有 的 库 。 















































Spark 的 内 存 缓 存 使 它 适 用 于 微观 和 宏观 两 个 层面 的 迭代 计算 。 机 器 学 习 算 法 需要 多 次 亿 
历 训 练 集 ， 可 以 将 训练 集 缓存 在 内 存 里 。 在 对 数据 集 进行 探索 和 初步 了 解 时 ， 数 据 科 学 家 
可 以 在 运行 查询 的 时 候 将 数据 集 放 在 内 存 中 ， 也 很 容易 将 转换 后 的 版 本 缓存 起 来 ， 这 样 就 
节省 了 访问 磁盘 的 开销 。 

















最 后 ，Spark 在 探索 型 分 析 系 统 和 操作 型 分 析 系 统 之 间 搭 起 一 座 桥梁 。 我 们 经 常 说 ， 数 据 
科学 家 比 统计 学 家 更 懂 软 件 工 程 ， 比 软件 工程 师 更 懂 统 计 学 。 基 本 上 讲 ，Spark 比 探索 型 
系统 更 像 操 作 型 系统 ， 比 操作 型 系统 中 常见 的 技术 更 善于 数据 探索 。Spark 从 根本 上 是 为 
性 能 和 可 靠 性 而 生 的 。 由 于 构建 于 JVM 之 上 ， 它 可 以 利用 Java 技术 栈 里 的 许多 操作 和 调 
试 工具 。 








Spark 还 紧密 集成 Hadoop 生态 系统 里 的 许多 工具 。 它 能 读 写 MapReduce 支持 的 所 有 数 
据 格 式 ， 可 以 与 Hadoop 上 的 常用 数据 格式 ， 如 Apache Avro 和 Apache Parquet (当然 也 
包括 古老 的 CSV)， 进 行 交 互 。 它 能 读 写 NoSQL 数据 库 ， 比 如 Apache HBase 和 Apache 
Cassandra。 它 的 流 式 处 理 组 件 Spark Streaming 能 连续 从 Apache Flume 和 Apache Kafka 
之 类 的 系统 读 取 数据 。 它 的 SQL 库 SparkSQL 能 和 Apache Hive Metastore 交互 ， 而 且 通 
过 Hive on Spark，Spark 还 能 替代 MapReduce 作为 Hive 的 底层 执行 引擎 。 它 可 以 运行 
在 Hadoop 集群 调度 和 资源 管理 器 YARN 之 上 ， 这 样 Spark 可 以 和 MapReduce 及 Apache 
Impala 等 其 他 处 理 引 擎 动态 共享 集群 资源 和 管理 策略 。 


1.3 关于 本 书 


本 书 接 下 来 的 部 分 不 会 讨论 Spark 的 优 缺 点。 还 有 其 他 一 些 话题 本 书 也 不 会 涉及 。 本 书 会 
介绍 Spark 的 流 式 编程 模型 和 Scala 基础 知识 ， 但 它 不 是 Spark 参考 书 或 参考 大 全 ， 不 会 讲 
Spark 技术 细节 。 它 也 不 是 机 器 学 习 、 统 计 学 、 线 性 代数 的 参考 书 ， 但 在 讲 到 这 些 知识 的 
时 候 ， 许 多 章节 会 提供 一 些 背 景 知 识 。 
另 一 方面 ， 本 书 将 帮助 读者 建立 用 Spark 在 大 规模 数据 集 上 进行 复杂 分 析 的 感觉 。 我 们 会 
讲述 整个 处 理 过 程 : 不 但 涉及 模型 的 构建 和 评价 ， 也 会 讲述 数据 清洗 、 数 据 预 处 理 和 数 
据 探索 ， 并 会 花费 笔墨 描述 怎样 将 结果 变 成 生产 应 用 。 我 们 认为 最 好 的 教学 方法 是 运用 实 
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例 ， 所 以 在 快速 介绍 完 Spark 及 其 生态 系统 之 后 ， 本 书 其 余 各 章 分 别 讨论 了 在 不 同 领 域 使 
用 Spark 进行 数据 分 析 的 实例 ， 每 个 实例 都 自 成 一 体 。 


如 果 可 能 的 话 ， 我 们 要 做 的 不 只 是 提供 解决 方案 。 我 们 会 描述 数据 科学 的 整个 工作 流程 ， 
包括 它 所 有 的 迭代 、 无 解 以 及 需要 重新 开始 的 情况 。 本 书 将 有 助 于 读者 熟悉 Scala、Spark、 
机 器 学 习 和 数据 分 析 。 但 这 都 是 为 了 一 个 更 大 的 目标 服务 ， 我 们 希望 本 书 首先 教会 读者 如 
何 完成 本 章 开 头 部 分 提 到 的 任务 。 每 一 章 虽 然 只 有 注 薄 的 20 来 页 ， 但 我 们 会 力求 把 怎样 
构建 一 个 此 类 数据 应 用 讲 清楚 、 讲 透彻 。 


1.4 第 2 版 说 明 


2015 年 和 2016 年 Spark 变化 很 大 ，2016 年 7 月 Spark 发 布 了 2.0 版 本 。 甚 中 改变 最 大 的 
是 Spark 的 核心 API。 在 Spark 2.0 以 前 的 版 本 中 ，Spark 的 API 主要 围绕 一 个 可 以 跨 节点 
分 布 的 、 延 迟 实 例 化 对 象 集 合 的 弹性 分 布 式 数据 集 (Resilient Distributed Dataset，RDD) 
而 构建 。 


虽然 RDD 使 用 了 一 套 强 大 而 富有 表达 力 的 API， 但 是 仍然 存在 两 个 主要 的 问题 。 第 
一 ，RDD 难以 高 效 且 稳定 地 执行 任务 。 由 于 依赖 Java 和 Python 对 象 ，RDD 对 内 存 的 
使 用 效率 较 低 ， 而 且 会 导致 Spark 程序 受 长 时 间 垃 圾 回收 的 影响 。 它 们 还 将 执行 计划 
(execution plan) 与 API 捆绑 到 了 一 起 ， 给 用 户 优化 应 用 程序 造成 了 沉重 的 负担 。 例 如 ， 
传统 RDBMS (关系 数据 库 管 理 系统 ) 可 以 根据 关联 表 的 大 小 来 选择 最 优 的 关联 策略 (join 
strategy) ， 而 Spark 需要 用 户 自 己 来 做 这 个 选择 。 第 二 ，Spark 的 API 忽视 了 一 个 事实 一 一 
数据 往往 能 用 一 个 结构 化 的 关系 形式 来 表示 ， 当 出 现 这 种 情况 的 时 候 ，API 应 该 提供 一 些 
原 语 ， 使 数据 更 加 易于 操作 ， 比 如 允许 用 户 使 用 列 的 名 字 来 访问 数据 ， 而 不 是 通过 元 组 中 
的 序数 位 置 。 




































































Spark 2.0 用 Dataset 和 DataFrame 替换 掉 RDD 来 解决 上 述 问 题 。Dataset 与 RDD 十 分 相 
似 ， 不同 之 处 在 于 Dataset 可 以 将 它们 所 代表 的 对 象 映 射 到 编码 器 (encoder) ， 从 而 实现 了 
一 种 更 为 高 效 的 内 存 表 示 方 法 。 这 就 意味 着 Spark 程序 可 以 执行 得 更 快 、 使 用 更 少 内 存 ， 
而 且 执 行 时 间 更 好 预测 。Spark 还 在 数据 集 和 执行 计划 之 间 加 入 了 一 个 优化 器 ， 这 意味 着 
Spark 能 对 如 何 执行 做 出 更 加 智能 的 决策 。DataFrame 是 Dataset 的 子 类 ， 专 门 用 于 存储 关 
系 型 数据 (也 就 是 用 行 和 固定 列表 示 的 数据 )。 为 了 理解 列 的 概念 ，Spark 提供 了 一 套 更 干 
净 的 、 富 有 表达 力 的 API， 同 时 也 加 入 了 很 多 性 能 优化 。 举 个 例子 ， 如 果 Spark 知道 了 仅 
其 中 一 部 分 列 会 被 用 到 ， 它 就 能 避免 将 用 不 到 的 列 载 入 内 存 中 。 还 有 许多 转换 操作 之 前 需 
要 使 用 用 户 定义 国 数 (user-defined function，UDEF) 来 表示 ， 现 在 可 以 在 API 中 直接 调用 
了 。 这 对 于 Python 用 户 来 说 十 分 有 用 ， 因 为 Spark 在 内 部 执行 这 些 转换 操作 比 Python 中 
定义 的 函数 要 快 得 多 。DataFrame 还 可 以 与 Spark SQL 互相 操作 ， 这 意味 着 用 户 可 以 写 

个 SQL 查询 来 获取 一 个 DataFrame， 然 后 选择 一 种 Spark 支持 的 语言 对 这 个 DataFrame 进 
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行 编程 操作 。 尽 管 新 API 与 旧 API 看 起 来 十 分 相似 ， 但 是 很 多 细 放 发生 了 改变 ， 因 此 儿 乎 
所 有 的 Spark 程序 都 要 更 新 。 


除了 核心 API 的 变化 以 外 ，Spark 2.0 还 见证 了 机 器 学 习 API 和 统计 分 析 API 的 巨大 变化 。 
在 之 前 的 版 本 中 ， 每 个 机 器 学 习 算 法 都 有 一 套 自己 的 API。 如 果 用 户 想 要 准备 算法 需要 的 
输入 数据 ， 或 者 将 一 个 算法 的 输出 提供 给 另外 一 个 算法 ， 都 需要 写 一 套 它们 自己 的 自 定义 
制 代 码 。Spark 2.0 包含 了 Spark ML API， 它 引入 了 一 个 框架 ， 可 以 将 多 种 机 器 学 习 算 法 
和 特征 转换 步骤 管道 化 。 这 个 API 受 Python 的 流行 框架 Scikit-Learn API 启发 ， 以 评估 器 
(estimator) 和 转换 器 (transformer) 为 中 心 ， 转 换 器 从 数据 中 学 习 参 数 ， 然 后 用 这 些 参数 
来 转换 数据 。Spark ML API 与 DataFrame API 高 度 集成 ， 使 得 在 关系 型 数据 上 训练 机 器 学 
习 模 型 变 得 更 容易 。 例 如 ， 用 户 可 以 通过 名 字 访 问 特征 ， 而 不 用 数组 下 标 。 


总 体 来 说 ，Spark 的 这 些 变 化 导致 本 书 第 1 版 中 的 很 多 内 容 都 过 时 了 。 因 此 ， 第 2 版 更 新 
了 所 有 的 章节 ， 并 尽 可 能 地 使 用 最 新 的 API。 此 外 ， 我 们 还 删除 了 一 些 无 关 的 章节 。 例 如 ， 
第 1 版 附录 介绍 了 API 的 细节 ， 第 2 版 中 将 其 删除 了 ， 一 定 程 度 上 是 因为 现在 Spark 可 以 
自动 处 理 ， 无 须 用 户 干预 。 随 着 Spark 进入 了 一 个 成 熟 而 稳定 的 新 时 代 ， 我 们 希望 通过 第 
2 版 的 这 些 更 新 ， 本 书 在 今后 几 年 内 会 保持 对 Spark 数据 分 析 的 参考 价值 。 














EM 

































































大 数据 分 析 | 7 


第 2 章 


用 Scala 和 Spark 进 行 数据 分 析 





作者 : 式 希 * 威 尔 斯 


世上 无 难事 ， 只 要 肯 耐 烦 。 
David Foster Wallace 











证 


数据 清洗 是 数据 科学 项 目的 第 一 步 ， 往 往 也 是 最 重要 的 一 步 。 许 多 灵巧 的 分 析 最 后 功 败 垂 
成 ， 原 因 就 是 分 析 的 数据 存在 严重 的 质量 问题 ， 或 者 数据 中 某 些 因 素 使 分 析 产 生 偏见 ， 或 
使 数据 科学 家 得 出 根本 不 存在 的 规律 。 


尽管 数据 清洗 很 重要 ， 但 数据 科学 相关 的 许多 教材 和 课程 都 不 讲述 数据 清洗 ， 抑 或 一 笔 带 
过 。 造 成 这 种 现象 的 原因 其 实 很 简单 : 数据 清洗 实在 是 很 琐碎 。 然 而 “ 磨 刀 不 误 砍 上 荣 工 ， 
只 有 事先 做 了 这 种 沉 癌 乏味 的 工作 ， 后 面 你 才能 领略 到 应 用 机 器 学 习 算法 解决 新 问题 时 的 
醛 畅 淋 漓 。 许 多 道行 肖 浅 的 数据 科学 家 往往 急于 求 成 ， 对 数据 草草 处 理 就 进行 下 一 步 工 
作 ， 等 到 运行 算法 后 ， 却 发 现 数据 有 严重 的 质量 问题 (可 能 是 计算 量 太 大 ),， 或 最 后 得 出 
的 结果 完全 不 合理 。 









































“垃圾 进 垃圾 出 ”这 样 浅 显 的 道理 大 家 都 明白 ， 和 危害 更 大 的 是 : 数据 看 似 合 理 却 有 很 严重 
(但 第 一 眼看 不 出 来 ) 的 质量 问题 ， 你 根据 这 样 的 数据 也 得 到 了 看 似 合理 的 答案 。 许 多 数 
据 科学 家 于 饭碗 ， 往 往 就 是 因为 这 样 错误 地 得 出 了 重要 结论 。 


数据 科学 家 最 为 人 称道 的 是 在 数据 分 析 生 命 周期 的 每 一 个 阶段 都 能 发 现 有 意思 、 有 价值 的 
问题 。 在 一 个 分 析 项 目的 早期 阶段 ， 你 投入 的 技能 和 思考 越 多 ， 对 最 终 的 产品 就 越 有 信心 。 





























当然 ， 说 起 来 容易 做 起 来 难 。 对 于 数据 科学 行业 来 说， 这 就 像 是 告诉 小 孩子 要 多 吃 蔬 菜 。 
相 比 数据 清洗 ， 摆 弄 Spark 之 类 新 滑 的 工具 ， 用 它们 构建 花哨 的 机 器 学 习 算 法 ， 开 发 流 式 
数据 处 理 引 擎 和 分 析 海 量 图 数据 ， 要 好 玩 得 多 。 如 有 果 要 介绍 如 何 用 Spark 和 Scala 进行 数 
据 处 理 ， 有 没有 一 种 比 练习 数据 清洗 更 好 的 方法 呢 ? 


2.1 数据 科学 家 的 Scala 


对 数据 处 理 和 分 析 ， 数 据 科 学 家 往往 都 自己 钟爱 的 工具 ， 比 如 及 或 者 Python。 除 非 不 得 
已 ， 数 据 科学 家 常常 会 坚持 用 他 们 所 钟爱 的 工具 ， 对 于 手头 上 的 工作 ， 他 们 总 想方设法 地 
沿用 这 些 工 具 。 即 使 情况 再 顺利 ， 想 让 数据 科学 家 采用 新 的 工具 、 学 习 新 语法 和 新 使 用 模 
式 ， 都 困难 重重 。 





























为 了 能 在 了 或 Python 里 直接 用 Spark，Spark 上 开发 了 专门 的 类 库 和 工具 包 。Python 有 个 
非常 好 用 的 工具 包 叫 作 PySpark， 第 11 章 有 几 个 例子 介绍 了 它 的 用 法 。 但 是 本 书 大 部 分 
例子 还 是 用 Scala 语言 编写 的 。Spark 框架 是 用 Scala 语言 编写 的 ， 在 向 数据 科学 家 介绍 
Spark 时 ， 采 用 与 底层 框架 相同 的 编程 语言 有 很 多 好 处 。 


。 性 能 开销 小 
为 了 能 在 基于 JVM 的 语言 (比如 Scala) 上 运行 用 R 或 Python 编写 的 算法 ， 我 们 必须 
在 不 同 环境 中 传递 代码 和 数据 ， 这 会 付出 代价 ， 而 且 在 转换 过 程 中 信息 时 有 丢失 。 但 
是 ， 如 果 数 据 分 析 算 法 用 Spark Scala API 编写 ， 你 会 对 程序 正确 运行 更 有 信心 。 


。 能 用 上 最 新 的 版 本 和 最 好 的 功能 
Spark 的 机 器 学 习 、 流 处 理 和 图 分 析 库 全 都 是 用 Scala 写 的 ， 而 新 功能 对 Python 和 R 绑 
定 支持 可 能 要 慢 得 多 。 如 果 想 用 Spark 的 全 部 功能 〈 而 不 用 花 时间 等 待 它 移植 到 其 他 语 
言 绑 定 ) ， 臣 怕 你 必须 学 点 儿 Scala 基础 知识 ， 如 果 想 扩展 这 些 Spark 已 有 功能 来 解决 你 
手头 上 的 新 问题 ， 就 更 要 深入 了 解 Scala 了 。 























。 有 助 于 你 了 解 Spark 的 原理 
即使 在 Python 或 R 中 调用 Spark，API 仍然 反映 了 底层 计算 原理 ， 它 是 Spark 从 其 开发 
语言 Scala 继承 过 来 的 。 如 果 你 知道 如 何在 Scala 中 使 用 Spark， 即 使 你 平时 主要 还 是 在 
其 他 语言 中 使 用 Spark， 你 还 是 会 更 理解 系统 ， 因 此 会 更 好 地 “用 Spark 思考 。 





学 习 在 Scala 中 用 Spark 还 有 一 个 好 处 。 由 于 Spark 不 同 于 其 他 任何 一 种 数据 分 析 工 具 ， 这 
个 好 处 解释 起 来 会 有 点 儿 困难 。 如 有 果 你 曾经 用 过 R 或 Python 从 数据 库 读 取 数 据 并 分 析 ， 肯 
定 经 历 过 用 一 种 语言 (SQL) 读 取 和 操作 大 量 存储 在 远程 集群 的 数据 ， 然 后 用 另 一 种 语言 
(Python 或 R) 来 操作 和 展现 存储 在 你 本 地 机 器 上 的 信息 。 如 果 想 把 一 部 分 计算 通过 SQL 
UDF 放 到 数据 库 引 擎 中 ， 你 需要 切换 到 另 一 种 编程 环境 (如 C+t+ 或 者 Java)， 并且 还 要 了 解 
数据 库 的 内 部 细节 。 如 果 你 一 直 这 么 做 ， 时 间 长 了 你 可 能 都 不 会 再 想 这 种 方式 有 没有 问题 。 



































用 Scala 和 Spark 进 行 数据 分 析 | 9 


使 用 Spark 和 Scala 做 数据 分 析 则 是 一 种 完全 不 同 的 体验 ， 因 为 你 可 以 选择 用 同样 的 语言 
完成 所 有 事情 。 借 助 Spark， 你 用 Scala 代码 读 取 集 群 上 的 数据 。 接 着 ， 你 把 Scala 代码 发 
送 到 集群 上 完成 相同 的 转换 ， 这 些 转 换 跟 你 刚刚 对 本 地 数据 所 做 的 转换 完全 一 样 ， 但 数 
据 却 在 集群 上 一 一 这 就 是 精妙 之 处 。 即 便 用 Spark SQL 这 样 的 高 阶 语 言 ， 也 可 以 写 好 内 联 
UDF， 用 Spark SQL 引擎 注册 ， 然 后 使 用 UDF 一 一 根本 不 用 切换 环境 。 


在 同一 个 环境 中 完成 所 有 数据 处 理 和 分 析 ， 不 用 芳 虑 数据 本 身 在 何 处 存放 和 在 何 处 处 理 ， 
这 简直 妙 不 可 言 。 这 种 感觉 只 有 你 亲身 经 历 才 体会 得 到 。 我 们 也 想 确 保 书 中 的 示例 能 够 让 
你 感受 到 我 们 首次 使 用 Spark 时 体验 到 的 那 种 魔术 般 的 感觉 。 


2.2 ”Spark 编 程 模型 


Spark 编程 始 于 数据 集 ， 而 数据 集 往往 存放 在 分 布 式 持久 化 存储 之 上 ， 比 如 HDFS。 编 写 
Spark 程序 通常 包括 一 系列 相关 步骤 。 


(1) 在 输入 数据 集 上 定义 一 组 转换 。 

(2) 调用 action， 可 以 将 转换 后 的 数据 集 保存 到 持久 化 存储 上 ， 或 者 把 结果 返回 到 驱动 程序 
的 本 地 内 存 。 

(3) 运行 本 地 计算 ， 处 理 分 布 式 计算 的 结果 。 本 地 计算 有 助 于 你 确定 下 一 步 的 转换 和 action。 


从 1.2 版 本 到 2.1 版本，Spark 变 得 成 熟 了 ， 处 理 上 述 步 又 的 工具 的 数量 和 质量 也 大 大 提 
升 。 在 完成 分 析 任 务 时 ， 你 可 以 搭配 使 用 复杂 SQL 查询 、 机 器 学 习 库 以 及 自 定义 代码 。 
Spark 社区 这 几 年 开发 了 各 种 高 阶 抽象 ， 利 用 这 些 抽象 ， 你 可 以 花 更 少 的 时 间 来 解决 更 多 
的 问题 。 但 是 所 有 这 些 高 阶 抽象 都 是 基于 存储 与 执行 的 相互 作用 ， 从 Spark 诞生 起 就 一 直 
是 这 样 。Spark 优美 地 搭配 这 两 类 抽象 ， 可 以 将 数据 处 理 管道 中 的 任何 中 间 步 又 缓 在 内 存 
里 以 备 后 用 。 了 解 这 些 原则 可 以 帮助 你 更 好 地 利用 Spark 做 数据 分 析 。 


2.3 记录 关联 问题 

本 章 我 们 要 研究 的 主题 在 许多 文献 和 实践 中 被 冠 以 许多 不 同 的 名 称 : 身份 解析 、 记 录 去 
重 、 合 并 一 清除 ， 以 及 列表 清洗 。 想 了 解 这 个 主题 的 方案 和 技术 概况 ， 我 们 需要 参考 这 个 
主题 的 所 有 相关 研究 论文 。 但 是 由 于 不 同文 献 和 实践 中 同一 个 概念 使 用 不 同 的 名 称 ， 我 们 
很 难 找到 所 有 相关 论文 。 在 搞 清 楚 数 据 清洗 这 个 问题 之 前 ， 我 们 得 请 数据 科学 家 把 与 数据 
清洗 这 个 概念 相关 的 令 人 混淆 的 许多 不 同名 称 给 去 去 重 。 这 真 让 人 觉得 讽刺 ! 为 了 方便 本 
章 余下 部 分 论述 ， 我 们 把 这 个 问题 称 为 记录 关联 (record linkage)。 

问题 的 大 概 情况 如 下 : 我 们 有 大 量 来 自 一 个 或 多 个 源 系 统 的 记录 ， 其 中 多 种 不 同 的 记录 
可 能 代表 相同 的 基础 实体 ， 比 如 客户 、 病 人 、 业 务 地 址 或 事件 。 每 个 实体 有 若干 属性 ， 
比如 姓名 、 地 址 、 生 日 。 我 们 需要 根据 这 些 属性 找到 那些 代表 相同 实体 的 记录 。 不 幸 的 
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是 ， 有 些 属性 值 有 问题 : 格式 不 一 致 ， 或 有 笔 误 ， 或 信息 缺失 。 如 果 简 单 地 对 这 些 属 性 
作 相 等 性 测试 ， 就 会 漏 掉 许多 重复 记录 。 举 个 例子 ， 我 们 看 看 表 2-1 列 出 的 几 家 商店 的 
记录 。 


表 2-1: 记录 关联 问题 的 难点 














名 称 地 址 城 市 州 电话 
Josh’s Coffee Shop 1234 Sunset Boulevard West Hollywood CA (213)-555-1212 
Josh Coffee 1234 Sunset Blvd West Hollywood CA 555-1212 
Coffee Chain #1234 1400 Sunset Blvd #2 Hollywood CA 206-555-1212 
Coffee Chain Regional Office 1400 Sunset Blvd Suite 2 Hollywood California 206-555-1212 














表 中 前 两 行 其 实 指 同 一 家 咖啡 店 ， 但 由 于 数据 录入 错误 ， 这 两 项 看 起 来 是 在 不 同城 市 
(West Hollywood 和 Hollywood)。 相 反 ， 表 中 后 两 行 其 实 是 同一 家 咖啡 连锁 店 的 不 同业 
务 部 门 ， 尽 管 它们 有 相同 的 地 址 : 地址 1400 Sunset Blvd 失 是 咖啡 店 的 实际 地 址 ， 另 一 
个 地 址 1400 Sunset Blvd Suite 2 则 是 公司 在 当地 的 一 个 办 公 室 地 点 。 后 两 项 给 的 都 是 公司 
Seattle 总 部 的 官方 电话 号 码 。 

这 个 例子 清楚 地 说 明了 记录 关联 为 什么 很 困难 : 即使 两 组 记录 看 起 来 相似 ， 但 针对 每 一 组 
中 的 条 目 ， 我 们 确定 它 是 否 重 复 的 标准 不 一 样 。 这 种 区 别 我 们 人 类 很 容易 理解 ， 计 算 机 却 
很 难 了 解 。 


















































2.4 小 试 牛 刀 : Spark shell 和 SparkContext 


我 们 的 样 例 数据 集 来 自 加 州 大 学 欧文 分 校 机 器 学 习 资 料 库 (UC Irvine Machine Learning 
Repository) ， 这 个 资料 库 为 研究 和 教学 提供 了 大 量 非 常 好 的 数据 源 ， 这 些 数据 源 非 常 有 意 
义 ， 并且 是 免费 的 。 我 们 要 分 析 的 数据 集 来源 于 一 项 记录 关联 研究 ， 这 项 研究 是 德国 一 家 
医院 在 2010 年 完成 的 。 这 个 数据 集 包 含 数 百 万 对 病人 记录 ， 每 对 记录 都 根据 不 同 标准 来 
匹配 ， 比 如 病人 姓名 (名字 和 姓氏 )、 地 址 、 生 日 。 每 个 匹配 字段 都 被 赋予 一 个 数值 评分 ， 
范围 为 0.0 到 1.0, 分 值 根据 字符 串 相 似 度 得 出 。 然 后 这 些 数据 交 由 人 工 处 理 ， 标 记 出 哪些 
代表 同一 个 人 ， 哪 些 代表 不 同 的 人 。 为 了 保护 病人 隐私 ， 创 建 数据 集 的 每 个 字段 的 原始 值 
被 删除 了 。 病 人 的 ID、 字段 匹配 分 数 、 匹 配对 标记 (包括 匹配 的 和 不 匹配 的 ) 等 信息 是 公 
开 的 ， 可 用 于 记录 关联 研究 。 


首先 我 们 从 资料 库 中 下 载 数据 ， 请 在 命令 行 中 输入 : 







































































$ mkdir Linkage 

$ cd linkage/ 

$ curl -L -o donation.zip https://bit.Ly/1Aoywaq 
$ unzip donation.zip 

$ unzip 'block_*.zip' 
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如 果 手 头 有 Hadoop 集群 ， 可 以 先 在 HDFS 上 为 块 数据 创建 一 个 目录 ， 然 后 将 数据 集 文 付 
复制 到 HDFS 上 : 





$ hadoop fs -mkdir linkage 

$ hadoop fs -put block _*.csv linkage 
本 书 示 例 和 代码 假定 读者 使 用 Spark 2.1.0。 可 以 在 Spark 项 目 网 站 (https://spark.apache. 
org/downloads.html) 获取 各 个 版 本 的 Spark 软件 。 想 了 解 如 何在 集群 或 本 地 机 器 上 安装 
Spark 环境 ， 请 参考 Spark 官方 文档 。 








现在 准备 工作 就 绪 ， 可 以 启动 spark-shell 了 。spark-shell 是 Scala 语言 的 一 个 REPL 环 
境 ， 它 同时 针对 Spark 做 了 一 些 扩展 。 如 果 这 是 你 第 一 次 见 到 REPL 这 个 术语 ， 可 以 把 它 
看 成 一 个 类 似 R 的 控制 台 : 可 以 在 其 中 用 Scala 编程 语言 定义 函数 并 操作 数据 。 





如 果 你 有 一 个 Hadoop 集群 ， 并 且 Hadoop 版 本 支持 YARN， 通 过 为 Spark master 设 定 yarn 
参数 值 ， 就 可 以 在 集群 上 启动 Spark 作业 : 








$ spark-shell --master yarn --deploy-mode client 




















如 果 你 是 在 自己 的 计算 机 上 运行 示例 ， 可 以 通过 设 定 local[N] 参数 来 启动 本 地 Spark 集 
群 ， 其 中 N 代表 运行 的 线程 数 ， 或 者 用 * 表示 使 用 机 器 上 所 有 可 用 的 核 数 。 比 如 ， 要 在 一 
个 8 核 的 机 器 上 用 8 个 线程 启动 一 个 本 地 集群 ， 可 以 输入 以 下 命令 : 

















$ spark-shell --master LocaL[*] 





在 本 地 环境 下 ， 书 中 示例 同样 能 运行 。 不 过 ， 这 时 传 入 的 文件 路 径 是 本 地 路 径 ， 而 不 是 以 
hdfs:// 开头 的 HDFS 路 径 。 注 意 ， 还 需要 通过 cp block_*.csv 将 文件 复制 到 指定 的 本 地 
目录 ， 而 不 是 用 包含 解压 文件 的 目录 ， 因 为 该 目录 不 仅 包含 .csv 文件 ， 还 包含 许多 其 他 
文件 。 


本 书 其 他 spark-shell 示例 中 不 会 出 现 - -master 参数 ， 但 根据 环境 通常 需要 设 定 该 参数 。 




















为 了 Spark shell 能 充分 利用 资源 ， 可 能 还 需要 额外 设 定 一 些 参 数 。 比 如 ， 当 Spark 运行 于 
本 地 master 模式 ， 可 以 用 --driver-memory 2g9， 这 样 就 设 定 了 一 个 本 地 进程 使 用 2 GB 内 
存 。YARN 内 存 设 置 会 更 复杂 ， 相 关 的 选项 (如 --executor-memory 等 参数 ) 设置 可 以 参 
学 Spark on YARN 的 官方 文档 (https://spark.apache.org/docs/latest/running-on-yarn.html) 。 














运行 完 上 述 命 令 后 ,可 以 看 到 Spark 在 初始 化 过 程 中 的 日 志 消 息 。 与 此 同时 ， 也 能 看 到 一 
点 儿 ASCII 艺术 体 字样 ， 之 后 又 是 一 段 日 志和 提示 符 : 





Spark context Web UI available at http://10.0.1.39:4040 

Spark context available as 'sc' (master = local[*], app id = ...). 
Spark session available as 'spark'. 

Welcome to 
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人 
EN 

/AN /A 
/_/ 


version 2.1.0 


Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_60) 
Type in expressions to have them evaluated. 

Type :help for more information. 

scala> 


如 果 你 是 第 一 次 用 Spark shell (或 任何 类 似 的 Scala REPL)， 可 以 运行 :help 命令 ， 该 命令 
列 出 了 shell 的 所 有 命令 。 运 行 ee :h?， 可 以 帮 你 找到 之 前 在 某 个 会 话 中 写 过 ， 但 
一 时 又 想 不 起 来 的 变量 或 函数 名 称 。 可 以 帮 你 插入 剪贴 板 中 的 代码 ， 这 是 学 
习 本 书 和 使 用 本 书 源 代码 必需 的 。 


:paste, 











除了 关于 :help 的 提示 ，Spark 日 志 消 息 还 显示 pd ee 
SparkContext 的 一 个 引用 ， 它 负责 协调 集群 上 Spark 作业 的 执行 。 继 续 在 命令 行 中 输入 sc: 





SC 


res: org.apache.spark.SparkContext = 
org.apache.spark.SparkContextQDEADBEEF 


REPL 会 以 字符 形式 打印 对 象 。SparkConext 对 象 就 是 名 字 加 上 十 六 进 制 的 对 象 内 存 地 址 
(示例 中 显示 的 DEADBEEF 是 占 位 符 ， 具 体 值 每 次 运行 时 都 不 一 样 ) 。 





























c 变量 确实 方便 ， 但 它 的 作用 是 什么 呢 ? SparkContext 是 一 个 对 象 ， 是 对 象 当然 就 有 方 
法 。 想 要 在 Scala REPL 中 查看 这 些 方法 ， 输 入 变量 名 加 点 号 再 加 Tab 键 即 可 : 
sc.[\t] 
!= hashCode 
## isInstanceOf 
+ isLocal 
-> isStopped 
三 = jars 
accumulable killExecutor 
accumulableCollection killExecutors 
accumulator listrFiles 
addFile ListJars 
addJar LongAccumulator 
(lots of other methods) 
getClass stop 
getConf submitJob 
getExecutorMemoryStatus synchronized 
getExecutorStorageStatus textFile 
getLocaLProperty toString 
getPersistentRDDs uiWebUrt 
getPoolForName union 
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getRDDStorageInfo version 


getSchedulingMode wait 
hadoopConfiguration wholeTextFiles 
hadoopFile > 


SparkContext 有 很 多 方法 ， 但 接 下 来 我 们 使 用 最 多 的 方法 用 于 创建 RDD。RDD 是 Spark 
所 提供 的 最 基本 的 抽象 ， 代 表 分 布 在 集群 中 多 台 机 器 上 的 对 象 集 合 。Spark 有 两 种 方法 可 
以 创建 RDD 








。 用 sparkContext 基于 外 部 数据 源 创建 RDD， 外 部 数据 源 包括 HDFS 上 的 文件 、 通 过 

JDBC 访问 的 数据 库 表 或 Spark shell 中 创建 的 本 地 对 象 集 合 ， 

。 在 一 个 或 多 个 已 有 RDD 上 执行 转换 操作 来 创建 RDD， 这 些 转 换 操 作 包 括 记 录 过 滤 、 对 
具有 相同 键 值 的 记录 做 汇总 、 把 多 个 RDD 关联 在 一 起 等 。 


利用 RDD 可 以 很 方便 地 描述 对 数据 要 进行 的 一 串 小 而 独立 的 计算 步骤 。 














弹性 分 布 式 数 据 集 (RDD) 
RDD 以 分 区 (partition) 的 形式 分 布 在 集群 中 的 多 个 机 器 上 ， 每 个 分 区 代表 了 数据 集 
的 一 个 子 集 。 分 区 定义 了 Spark 中 数据 的 并 行 单位 。Spark 框架 并 行 处 理 多 个 分 区 ， 一 
个 分 区 内 的 数据 对 象 则 是 顺序 处 理 。 创 建 RDD 最 简单 的 方法 是 在 本 地 对 象 集合 上 调 
用 SparkContext 的 paraLLeLize 方法 。 
val rdd = sc.parallelize(Array(1, 2, 2, 4), 4) 


rdd: org.apache.spark.rdd.RDD[INt] = ... 


第 一 个 参数 代表 待 并 行 化 的 对 象 集合 ， 第 二 个 参数 代表 分 区 的 个 数 。 当 要 对 一 个 分 区 
内 的 对 象 进行 计算 时 ，Spark 从 驱动 程序 进程 里 获取 对 象 集合 的 一 个 子 集 。 

要 在 分 布 式 文件 系统 (比如 HDFS) 上 的 文件 或 目录 上 创建 RDD， 可 以 给 textFile 方 
法 传 入 文件 或 目录 的 名 称 : 


val rdd2 = sc.textFile("hdfs:///some/path.txt") 


rdd2: org.apache.spark.rdd.RDD[String] = ... 


如 果 Spark 在 本 地 模式 下 运行 ， 可 以 用 textFile 方法 访问 本 地 文件 系统 上 的 路 径 。 如 
果 输 入 是 目录 而 不 是 单个 文件 ，Spark 会 把 该 目录 下 所 有 的 文件 作为 RDD 的 输入 。 最 
后 请 注意 ， 实 际 上 Spark 并 未 将 数据 读 取 到 客户 端 机 器 或 集群 内 存 中 。 当 需要 对 分 区 
内 的 对 象 进行 计算 时 ，Spark 才 会 读 入 输入 文件 的 菜 个 部 分 (也 称 “切片 ”)， 然 后 应 用 
其 他 RDD 定义 的 后 续 转换 操作 (过滤 和 汇总 等 )。 














我 们 的 记录 关联 数据 存储 在 一 个 文本 文件 中 ,文件 中 每 行 代表 一 个 样本 。 我 们 用 
SparkContext 的 textFile 方法 来 得 到 RDD 形式 的 数据 引用 : 











val rawblocks = sc.textFile("linkage") 


rawblocks: org.apache.spark.rdd.RDD[String] = ... 





这 几 行 代码 有 几 点 值得 我 们 注意 。 第 一 ， 我 们 声明 了 一 个 名 叫 rawblocks 的 新 变量 。 从 
shell 中 可 以 看 出 ，rawblocks 变量 的 类 型 为 RDD[String]， 而 我 们 并 没有 在 变量 声明 时 指 
出 变量 类 型 。 这 个 功能 在 Scala 编程 语言 中 称 为 类 型 推断 ， 它 为 我 们 写 代码 时 节省 了 许多 
键盘 输入 。Scala 会 尽 可 能 从 上 下 文中 分 析出 变量 类 型 。 在 我 们 的 示例 中 ，Scala 会 查找 
SparkContext 对 象 textFile 国 数 的 返回 值 类 型 ， 发 现 该 国 数 返回 RDD[String] 类 型 ， 于 是 
就 将 RDD[String] 类 型 赋 给 rawblocks 变量 。 








只 要 在 Scala 中 定义 新 变量 ， 就 必须 在 变量 名 称 前 加 上 val 或 var。 名 称 前 带 val 的 变量 是 不 
可 变 变量 。 一 旦 给 不 可 变 变 量 赋 完 初 值 ， 就 不 能 改变 它 ， 让 它 指向 另 一 个 值 。 而 以 var 开头 
的 变量 则 可 以 改变 其 指向 ， 让 它 指向 同一 类 型 的 不 同 对 象 。 试 试看 如 下 代码 的 执行 情况 : 






































rawblocks = sc.textFile("linkage") 
<console>: error: reassignment to val 


var varblocks = sc.textFile("linkage") 
varblocks = sc.textFile("linkage") 


试图 将 关联 数据 重新 赋 给 rawblocks val 变量 会 报错 ， 但 重新 给 varblocks var 变量 赋值 则 


没有 问题 。 在 Scala REPL 中 ， 对 val 变量 有 个 例外 ， 因 为 Scala REPL 允许 我 们 重新 声明 
相同 的 不 可 变 变量 ， 请 看 代码 : 











val rawblocks 
val rawblocks 


sc.textFile("linakge") 
sc.textFile("linkage") 


示例 中 第 二 次 声明 rawblocks val 变量 并 没有 报错 。 这 在 常规 Scala 代码 中 是 非法 的 ， 但 在 
shell 中 却 没 有 问题 ， 本 书 的 许多 例子 中 会 用 到 该 功能 。 














REPL 与 编译 


除了 交互 式 shell, Spark 也 支持 编译 程序 。 我 们 通常 推荐 使 用 Apache Maven (https://maven. 
apache.org) 来 编译 程序 和 管理 依赖 关系 。 本 书 在 GitHub 的 资料 库 的 simplesparkproject/ 
目录 (https://github.com/sryza/aas/tree/master/simplesparkproject) 下 包含 了 一 个 完整 的 
Maven 工程 ， 你 可 以 用 它 作 为 开端 。 


现在 你 有 两 个 选择 : shell 和 编译 程序 ， 但 测试 和 构建 数据 处 理 程序 时 该 选 哪个 呢 ? 通 
常 在 初始 阶段 工作 可 能 全 部 用 REPL 完成 。REPL 可 以 加 快 原型 开发 ， 使 选 代 更 快 ， 
很 快 看 到 你 的 想法 的 结果 。 但 随 着 程序 越 来 越 大 ， 在 一 个 文件 中 维护 大 量 代 码 就 变 得 
很 策 抽 了， 这 时 解释 Scala 程序 也 要 消耗 更 多 时 间 。 如 果 数 据 量 巨大 ， 情 况 会 更 糟 ， 
经 常会 出 现 一 个 操作 导致 Spark 应 用 盘 汗 或 SparkContext 不 可 用 的 情况 。 如 果 发 生 这 
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种 情况 ， 意 味 着 所 有 的 工作 和 输入 的 代码 部 丢失 了 。 这 时 我 们 往往 应 该 采用 混合 模式 。 
最 前 前 面 的 开发 工作 在 REPL 里 完成 ， 随 着 代码 逐渐 成 熟 ， 将 代码 移 到 编译 库 里 。 可 以 
在 spark-shell 中 引用 已 编译 好 的 JAR， 只 要 给 spark-shell 设置 --jars 命令 行 参 数 
即 可 。 这 样 的 话 ， 如 果 使 用 得 当 ， 就 不 用 频繁 重新 编译 JAR， 同 时 REPL 可 以 支持 快 
速 代码 迭代 和 逐步 成 熟 方 式 。 


如 何 引 用 外 部 的 Java 和 Scala 类 库 呢 ? 要 编译 引用 了 外 部 类 库 的 代码 ， 需 要 在 工程 的 
Maven 配置 文件 (pom.xml) 中 指定 所 需 的 类 库 。 要 运行 依赖 外 部 类 库 的 代码 ， 需 要 在 
Spark 进程 中 通过 classpath 将 所 需 类 库 的 JAR 文件 包含 进来 。 为 此 ， 一 种 好 的 做 法 
是 使 用 Maven 来 打包 JAR， 使 生成 的 JAR 包含 应 用 程序 的 所 有 依赖 文件 。 接 着 在 启动 
shell 时 通过 --jars 属性 引用 该 JAR。 这 种 方法 的 优点 是 依赖 只 需要 在 Maven 的 pom. 
xml 中 指定 一 次 即 可 。 如 何 进行 设置 ， 请 参考 本 书 GitHub 资料 库 的 simplesparkproject/ 
目录 。 


如 果 想 使 用 第 三 方 Maven 仓库 的 某 个 JAR， 可 以 通过 --package 命令 行 参数 告知 
spark-shell 这 个 JAR 的 Maven 坐标 ， 随 后 spark-shell 就 会 加 载 这 个 JAR。 举 个 
例子 ， 为 加 载 Scala 2.11 版 本 的 Wisp Visualization 库 ， 你 需要 将 --packages "com. 
quantifind:wisp_2.11:0.0.4" 这 个 参数 传递 给 spark-shell。 如 果 所 需 的 JAR 未 存储 
在 Maven 中 央 仓 库 中 ， 可 以 通过 --repositories 参数 来 告诉 Spark， 这 个 JAR 在 哪个 
仓库 中 。 如 果 想 用 --packages 和 --repositories 来 加 载 多 个 JAR， 可 以 使 用 过 号 对 多 
个 包 名 或 仓库 名 进行 分 陪 








2. 


5 把 数据 从 集群 上 获取 到 客户 端 


RDD 有 许多 方法 ， 我 们 可 以 用 这 些 方法 从 集群 读 取 数据 到 客户 端 机 器 上 的 Scala REPL 中 。 














其 中 最 简单 的 方法 可 能 就 是 first 了 ， 该 方法 向 客户 端 返回 RDD 的 第 一 个 元 素 : 





>™ 


fi 
如 
的 


还 


10 


rawblocks.first 


res: String = "id_1","id_ 2","cmp_fname_c1","cmp_fname_c2", 





rst 方法 可 用 于 对 数据 集 做 常规 检查 ， 但 通常 我 们 更 想 返 回 更 多 样 例 数据 供 客 户 端 分 析 。 
果 知 道 RDD 只 包含 少量 记录 ， 可 以 用 collect 方法 向 客户 返回 一 个 包含 所 有 RDD 内 容 
数组 。 因 为 我 们 还 不 知道 这 个 关联 数据 集 有 多 大 ， 所 以 暂时 不 那么 做 了 。 


不 可 以 用 take 方法 ， 这 个 方法 在 first 和 collect 之 间 做 了 一 些 折衷 ， 可 以 向 客户 端 返回 
个 包含 ee 我 们 来 看 看 如 何 使 用 take 方法 获取 记录 关联 数据 集 的 前 
行 记录 : 




















val head = rawblocks.take(10) 


head: Array[String] = Array("id 1","id 2","cmp_fname_c1", 








head.Length 


res: Int = 10 





动作 
创建 RDD 的 操作 并 不 会 导致 集群 执行 分 布 式 计算 。 相 反 ，RDD 只 是 定义 了 作为 计算 
过 程 中 间 步 又 的 还 辑 数据 集 。 只 有 调用 RDD 上 的 action (动作 ) 时 分 布 式 计算 才 会 执 
行 。 举 个 例子 ，count 动作 返回 RDD 中 对 象 的 个 数 : 
rdd.count() 
14/09/10 17:36:09 INFO SparkContext: Starting job: count ... 


14/09/10 17:36:09 INFO SparkContext: Job finished: count ... 
res0: Long = 4 


collect 动作 返回 一 个 包含 RDD 中 所 有 对 象 的 Array (数组 ) : 


rdd.collect() 

14/09/29 00:58:09 INFO SparkContext: Starting job: collect ... 
14/09/29 00:58:09 INFO SparkContext: Job finished: collect ... 
res2: Array[(Int, Int)] = Array((4,1), (1,1), (2,2)) 


动作 不 一 定向 本 地 进程 返回 结果 。saveAsTextFile 动作 将 RDD 的 内 容 保存 到 持久 化 存 
储 (比如 HDFS) 上 : 

rdd.saveAsTextFile("hdfs:///user/ds/mynumbers") 

14/09/29 00:38:47 INFO SparkContext: Starting job: 

saveAsTextFile ... 


14/09/29 00:38:49 INFO SparkContext: Job finished: 
saveAsTextFile ... 


该 动作 创建 一 个 目录 并 为 每 个 分 区 输出 一 个 文件 。 切 换 到 Spark shell 外 面 的 命令 行 ， 
执行 如 下 操作 : 


hadoop fs -ls /user/ds/mynumbers 


-rw-r--r-- 3 ds supergroup 0 2014-09-29 00:38 myfile.txt/_SUCCESS 
-rw-r--r-- 3 ds supergroup 4 2014-09-29 00:38 myfile.txt/part-00000 
-rw-r--r-- 3 ds supergroup 4 2014-09-29 00:38 myfile.txt/part-00001 


记 住 ，textFile 接受 包含 一 个 文本 文件 的 目录 作为 输入 ， 这 意味 将 来 的 Spark 作业 可 
以 把 mynumbers 作为 其 输入 目录 。 














Scala REPL 返回 的 数据 原始 形式 可 能 有 点 儿 难 以 读 懂 ， 特 别 是 对 于 包含 了 许多 元 素 的 数组 
更 是 如 此 。 为 了 更 容易 读 懂 数组 的 内 容 ， 我 们 可 以 用 foreach 方法 并 结合 printtn 来 打印 
出 数组 中 的 每 个 值 ， 并 且 每 一 行 打印 一 个 值 : 



































head.foreach(printtLn) 


"id_1","id 2","cmp_fname_c1","cmp_fname_c2","cmp_lname_c1","cmp_lname_c2", 
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"cmp_sex","cmp_bd","cmp_bm","cmp_by","cmp_plz","is _ match" 
37291,53113,0.833333333333333,?,1,?,1,1,1,1,0,TRUE 
39086,47614,1,?,1,?,1,1,1,1,1,TRUE 


70031,70237,1,?,1,?,1,1,1,1,1,TRUE 
84795,97439,1,?,1,?,1,1,1,1,1,TRUE 
36950,42116,1,?,1,1,1,1,1,1,1,TRUE 
42413,48491,1,?,1,?,1,1,1,1,1,TRUE 
25965,647153,1;? ,1,?7,1,1;1;1,1,TRUE 
49451,90407,1,?,1,?,1,1,1,1,0,TRUE 
39932,40902,1,?,1,?,1,1,1,1,1,TRUE 


本 书 经 常用 到 foreach(printtn) 模式 。 它 是 一 个 常见 的 函数 式 编程 模式 : 把 函数 printtn 
作为 参数 传递 给 另 一 个 国 数 以 执行 某 个 动作 。 用 过 及 的 数据 科学 家 很 熟悉 这 种 编程 风格 。 
为 了 在 处 理 癌 量 和 列表 时 避免 循环 ， 他 们 习惯 用 高 阶 国 数 ， 比 如 apply 和 LappLy。Scala 的 




















集合 与 R 的 列表 和 向 量 类 似 ， 我 们 通常 希望 少 用 for 循环 ， 而 在 处 到 








集合 元 素 时 采用 高 阶 





很 快 我 们 就 发 现 数据 有 儿 个 问题 ， 这 些 问 题 必 须 在 开始 对 数据 分 析 前 解决 好 。 首 先 ，CSV 
文件 有 一 个 标题 行 需要 过 滤 掉 ， 以 免 影响 后 续 分 析 。 我 们 可 以 将 标题 行 中 出 现 的 "id_1" 字 
符 串 作为 过 滤 条 件 ， 编 写 一 个 简单 的 Scala 函数 来 测试 一 行 记录 中 是 否 包含 该 字符 串 ， 代 








码 如 下 : 


def isHeader(line: String) = line.contains("id_1") 
isHeader: (line: String)Boolean 





和 Python 类 似 ，Scala 声明 函数 用 关键 字 def。 和 Python 不 同 ， 我 们 必须 为 函数 指定 参数 


类 型 : 在 示例 中 ， 我 们 指明 Line 参数 是 String。 函 数 体 部 分 调用 St 





ring 类 的 contains 方 


法 ， 用 于 测试 字符 串 中 是 否 出 现 "id_1" 字符 序列 ， 等 号 后 的 部 分 都 是 函数 体 的 内 容 。 虽 然 
我 们 必须 指定 tine 参数 的 类 型 ， 但 是 没 必要 指定 函数 的 返回 类 型 ， 原 因 在 于 Scala 编译 器 
能 根据 String 类 的 信息 和 String 类 contains 方法 返回 true 或 false 这 一 事实 来 推断 出 函 











数 的 返回 类 型 。 











有 了 时候 我 们 希望 能 显 式 地 指明 函数 返回 类 型 ,特别 是 碰 到 函数 体 很 长 、 代 码 复 杂 并 且 包 含 
多 个 return 语句 的 情况 。 这 时 候 ，Scala 编译 器 不 一 定 能 推断 出 函数 的 返回 类 型 。 为 了 函 
数 代码 可 读 性 更 好 ， 也 可 以 指明 函数 的 返回 类 型 。 这 样 他 人 在 阅读 代码 的 时 候 ， 就 不 必 重 




















新 把 整个 函数 读 一 遍 了 。 可 以 紧 跟 在 参数 列表 后 面 声明 返回 类 型 ， 示 例如 下 : 


def isHeader(line: String): Boolean = { 
line.contains("id_1") 


isHeader: (line: String)Boolean 

















通过 用 Scala 的 Array 类 的 fitter 方法 打印 出 结果 ， 可 以 在 head 数组 上 测试 新 编写 的 


Scala 国 数 : 








head.filter(isHeader).foreach(println) 
"id_1","id 2","cmp_fname_c1","cmp_fname_c2","cmp_lname_c1",... 
看 起 来 我 们 的 isHeader 方法 没什么 问题 : 通过 filter 方法 将 isHeader 作用 在 head 数组 


上 上， 返回 的 唯一 结果 是 标题 行 本 身 。 当 然 ， 我 们 其 实 想 要 的 是 所 有 非 标题 行 。 为 了 完成 这 
个 目标 ，Scala 有 几 种 方法 。 第 一 个 就 是 利用 Array 类 的 filterNot 方法 : 





head.filterNot(isHeader).Length 
res: Int = 9 
还 可 以 利用 Scala 对 匿名 函数 的 支持 ， 在 fitter 函数 里 面 对 isheader 函数 取 非 : 
head.filter(x => !isHeader(x)).length 
res: Int = 9 
Scala 的 匿名 函数 有 点 儿 类 似 于 Python 的 lambda 函数 。 在 示例 代码 中 我 们 定义 了 一 个 名 为 
x 的 参数 并 把 它 传 给 isHeader 函数 ， 再 对 isHeader 函数 的 返回 值 取 非 。 请 注意 ， 样 例 代码 


中 没 必要 指定 x 变量 的 类 型 信息 ，Scala 编译 器 能 够 根据 head 的 类 型 是 Array[String] 推 
断 出 x 是 String 类 。 



































Scala 程序 员 最 讨厌 的 就 是 键盘 输入 。 因 此 Scala 设计 了 许多 小 功能 来 减少 输入 ， 比 如 在 
名 函数 的 定义 中 ， 为 了 定义 匿名 函数 并 给 参数 指定 名 称 ， 只 输入 了 字符 x=>。 但 像 这 么 简 
单 的 匿名 函数 ， 其 至 都 没 必 要 这 么 做 :Scala 允许 使 用 下 划 线 (_) 表示 匿名 函数 的 参数 ， 
因此 我 们 可 以 少 输入 4 个 字符 : 


加 | 








head.fiLLter(!LsHeader(_)).Length 
res: Int = 9 


有 时 这 种 缩写 语法 使 代码 更 易 阅 读 ， 因 为 它 省 略 了 明显 多 余 的 标识 符 ， 但 有 时 也 会 使 代码 
更 难 懂 。 代 码 到 底 是 更 易 懂 还 是 更 难 懂 ， 这 就 要 靠 我 们 自己 判断 了 。 


2.6 ”把 代码 从 客户 端 发 送 到 集群 
刚才 我 们 见识 了 Seala 语言 定义 和 运行 函数 的 多 种 方式 。 我 们 执行 的 代码 都 作用 在 head 数 


组 中 的 数据 上 ， 这 些 数据 都 在 客户 端 机 器 上 。 现 在 ， 我 们 打算 在 Spark 里 把 刚 写 好 的 代码 
应 用 到 关联 记录 数据 集 RDD rawbtLocks， 该 数据 集 在 集群 上 的 记录 有 数 百 万 条 。 




















下 面 是 一 段 示例 代码 ， 是 不 是 觉得 特别 熟悉 ? 











val noheader = rawblocks.filter(x => !isHeader(x)) 
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用 于 过 滤 集 群 上 整个 数据 集 的 语法 和 过 滤 本 地 机 器 上 的 head 数组 的 语法 一 模 一 样 。 可 以 用 
noheader 这 个 RDD 来 验证 过 滤 规 则 是 否 正确 : 


noheader .first 


res: String = 37291,53113,0.833333333333333,?,1,?,1,1,1,1,0,TRUE 


这 太 强 大 了 ! 它 意 味 着 我 们 可 以 先 从 集群 采样 得 到 小 数据 集 ， 在 小 数据 集 上 开发 和 调试 
数据 处 理 代码 ， 等 一 切 就 绪 后 再 把 代码 发 送 到 集群 上 处 理 完整 的 数据 集 就 可 以 了 。 最 历 
害 的 是 ， 我 们 从 头 到 尾 都 不 用 离开 shell 界面 。 除 了 Spark， 还 真 没有 哪 种 工具 能 给 你 这 
种 体验 。 


在 后 面 儿 节 中 ， 我 们 将 运用 这 种 本 地 开发 加 测试 和 集群 运算 的 方式 ， 来 展示 更 多 处 理 和 分 
析 记 录 关 联 数据 的 技术 。 如 果 你 现在 想 停 下 来 喝 口 水 ， 感 叹 一 下 Spark 这 个 新 世界 的 美妙 ， 
我 们 当然 能 理解 。 

































































2.7 从 RDD 到 DataFrame 


本 书 第 1 版 的 这 一 节 中 ， 我 们 介绍 了 一 个 新 功能 : 如 何在 REPL 中 混合 使 用 本 地 开发 和 测 
试 以 及 集群 中 的 运算 。 我 们 写 了 一 段 代 码 ， 对 存储 记录 关联 数据 的 CSV 文件 进行 解析 。 
代码 完成 的 工作 包括 : 把 每 一 行 按照 逗号 分 隔 成 多 个 字段 ， 再 将 每 个 字段 转换 成 对 应 的 数 
据 类 型 〈 整 型 或 双 精 度 浮 点 数 )， 并 处 理 非法 值 。Spark 的 这 种 处 理 数据 的 方式 很 有 吸引 
力 ， 特 别 是 在 数据 集 的 结构 不 同 寻常 或 者 非 标准 的 情况 下 ， 此 时 其 他 处 理 方式 并 不 适用 。 


不 过 ， 我 们 遇 到 的 大 部 分 数据 集 都 有 着 合理 的 结构 ， 要 么 因为 它们 本 来 如 此 (比如 来 自 数 
据 库 的 表 )， 要 么 因为 有 人 已 经 对 数据 做 好 了 清洗 和 结构 化 。 对 这 类 数据 ， 我 们 完全 没有 
必要 花费 精力 自己 写 一 套 代 码 来 解析 它 ， 只 需 简单 地 调用 现成 的 类 库 ， 并 利用 数据 的 结 
构 ， 即 可 将 其 解析 成 所 需 结 构 ， 然 后 就 可 以 做 数据 分 析 了 。Spark 1.3 中 引入 了 一 个 这 样 的 
新 数据 结构 


DataFrame 是 一 个 构建 在 RDD 之 上 的 Spark 抽象 ， 它 专门 为 结构 规整 的 数据 集 而 设 
计 ，DataFrame 的 一 条 记录 就 是 一 行 ， 每 行 都 由 若干 个 列 组 成 ， 每 一 列 的 数据 类 型 都 有 
严格 定义 。 可 以 把 DataFrame 类 型 实例 理解 为 Spark 版 本 的 关系 数据 库 表 。DataFrame 这 
个 名 字 可 能 会 让 你 联想 到 R 语言 的 data.frame 对 象 ， 或 者 Python 的 pandas.DataFrame 对 
象 ， 但 是 Spark 的 DataFrame 与 它们 有 很 大 的 不 同 。 这 么 说 是 因为 DataFrame 代表 集群 中 
的 一 个 分 布 式 数据 集 ， 而 不 是 所 有 数据 都 存储 在 同一 台 机 器 上 的 本 地 数据 。 虽 说 Spark 的 
DataFrame 与 data.frame 以 及 pandas.DataFrame 的 用 法 比较 相似 ， 而 且 在 生态 系统 中 的 角 
色 也 类 似 ， 但 是 R 和 Python 中 的 某 些 操作 在 Spark 中 却 无 法 使 用 。 所 以 ， 最 好 把 它们 看 成 
独立 的 实体 ， 并 堂 试 接 纳 这 些 不 同 点 。 


















































DataFrame 。 


























要 为 记录 关联 数据 集 建 立 一 个 DataFrame， 我 们 需要 用 到 SparkSession 对 象 spark， 这 个 
对 象 是 在 启动 Spark REPL 时 创建 的 : 


spark 
res: org.apache.spark.sql.SparkSession = ... 


SparkSession 末代 了 SQLContext，SQLContext 最 初 是 在 Spark 1.3 中 引入 的 ， 现 在 已 经 不 
用 了 。 与 SQLContext 类 似 ，SparkSession 是 SparkContext 对 象 的 一 个 封装 ， 你 可 以 通过 
SparkSession 直接 访问 到 SparkContext 


spark.sparkContext 


res: org.apache.spark.SparkContext = ... 


可 以 看 到 ，spark.sparkContext 的 值 与 我 们 之 前 用 来 创建 RDD 的 sc 变量 是 完全 一 样 的 。 
要 创建 一 个 DataFrame， 我 们 可 以 使 用 SparkSession 的 Reader API 的 csv 方法 : 





val prev = spark.read.csv("linkage") 


prev: org.apache.spark.sqL.DataFrame = [_c0: string，_c1: string, ... 


默认 情况 下 ，CSYV 文件 中 的 每 一 列 都 是 string 类 型 ， 列 名 默认 为 “<9、_c1、_c2, 等 等 。 要 
想 知 道 一 个 DataFrame 的 前 几 行 ， 可 以 调用 DataFrame 的 show() 方法 。 





prev.show() 


可 以 看 到 ， 第 一 行 是 DataFrame 表 头 的 列 名 。 正 如 我 们 所 料 ，CSYV 文件 被 整齐 地 划分 成 多 
个 列 。 我 们 还 发 现 有 些 列 中 出 现 了 “?” ， 接 下 来 需要 将 所 有 “?” 标 记 为 缺失 值 。 除 了 给 
每 一 列 正确 命名 以 外 ， 如 果 Spark 还 能 推断 出 每 一 列 的 数据 类 型 ， 那 就 再 好 不 过 了 。 














幸运 的 是 ，Spark 的 CSV 读 取 器 提供 了 该 项 功能 ， 我 们 只 需 设置 Spark 的 CSV reader 
API 即 可 。 你 可 以 在 spark-csv 项 目的 GitHub 页 面 (https://github.com/databricks/spark- 
csv#features) 上 看 到 所 有 需 设 置 的 选项 ，spark-csvy 在 Spark 1x 时 代 是 独立 的 项 目 ， 到 了 
Spark 2.x 才 整 合 进来 。 现 在 我 们 可 以 通过 以 下 方式 读 取 并 解析 关联 数据 了 : 








val parsed = spark.read. 
option("header", "true"). 
option("nullValue", "?"). 
option("inferSchema", "true"). 
csv("linkage") 


对 parsed 调用 show 方法， 可 以 看 到 列 名 已 经 设置 成 功 ,“?” 也 替换 成 了 null 值 。 要 了 解 
每 列 的 推测 类 型 ， 我 们 可 以 输出 经 过 解析 的 DataFrame 的 模式 信息 ， 示 例如 下 : 
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parsed.printSchema() 
root 
|-- id_1: integer (nullable = true) 
|-- id 2: integer (nullable = true) 
|-- cmp_fname_c1: double (nullable = true) 
|-- true) 


cmp_fname_c2: double (nullable 


每 个 StructField 实例 包含 了 列 名 、 每 条 记录 中 数据 的 最 具体 的 类 型 ， 以 及 一 个 表示 此 列 
是 否 人 允许 空 值 的 布尔 字段 (默认 值 为 真 )。 为 了 完成 模式 推断 ，Spark 需要 遍历 数据 集 两 
次 : 第 一 次 找 出 每 列 的 数据 类 型 ， 第 二 次 才 真 正 进行 解析 。 如 果 预 先知 道 某 个 文件 的 模 
式 ， 你 可 以 创建 一 个 org.apache.spark.sql.types.StructType 实例 ， 并 使 用 模式 函数 将 它 
传 给 Reader API。 在 数据 量 很 大 的 情况 下 ， 这 样 做 可 以 获得 巨大 的 性 能 提升 ， 因 为 Spark 
不 需要 为 确定 每 列 的 数据 类 型 而 额外 遍历 一 次 数据 。 





























DataFrame 与 数据 格式 


通过 DataFrameReader 和 DataFrameWriter API，Spark 2.0 内 置 支持 多 种 格式 读 写 
DataFrame。 除 了 我 们 这 里 讨论 过 的 CSV 格式 以 外 ， 还 可 以 读 写 如 下 几 种 数据 源 。 


json 


支持 CSV 格式 具有 的 模式 推断 功能 。 


parquet 和 orc 


两 种 二 进 制 列 式 存储 格式 ， 这 两 种 格式 可 以 相互 替代 。 


jdbc 
通过 JDBC 数据 连接 标准 连接 到 关系 型 数据 库 。 


libsvm 


一 种 常用 于 表示 特征 稀 忠 并 且 带 有 标号 信息 的 数据 集 的 文本 格式 。 


text 

文件 的 每 行 作为 字符 串 整 体 映射 到 DataFrame 的 一 列 。 
要 访问 DataFrameReader API 中 的 方法 ， 可 以 调用 SparkSession 实例 的 read 方法 。 要 
从 文件 中 加 载 数 据 ， 可 以 调用 format 和 Load 方法 ， 也 可 以 使 用 更 快捷 的 方法 ， 这 些 
方法 格式 是 内 置 的 ， 示 例如 下 : 


val dl 
val d2 


spark.read.format("json").load("file.json") 
spark.read.json("file.json") 


在 这 个 例子 中 ，d1 和 d2 引用 的 底层 数据 是 同一 份 JSON 数据 ， 因 此 1 和 d2 内 容 相 
同 。 每 个 不 同 的 文件 格式 都 有 它们 自己 的 设置 项 ， 可 以 通过 option 方法 设置 这 些 先 
项 ， 参 见 我 们 对 CSV 文件 的 方法 设置 。 











如 果 要 把 数据 导出 ， 你 可 以 通过 调用 任何 DataFrame 实例 的 write 方法 访问 DataFrameWriter 
API。DataFrameWriter API 支持 与 DataFrameReader API 相同 的 内 置 格 式 ， 所 以 要 把 文 
件 保 存 成 parquet 格式 的 话 ， 以 下 两 种 方法 都 可 以 : 


di.write.format("parquet").save("file.parquet") 
d1i.write.parquet("file.parquet") 


默认 情况 下 ，Spark 在 保存 DataFrame 时 ， 如 果 目 标 文 件 已 存在 ，Spark 会 抛 出 一 个 错 
误 信 息 。 你 可 以 通过 DataFrameWriter API 的 枚 举 类 型 SaveMode， 榨 制 Spark 在 这 种 情 
况 下 的 行为 。 你 可 以 选择 强制 覆盖 (0verwrite)、 在 文件 末尾 追加 (Append) ， 或 者 文 
件 已 存在 时 跳 过 这 次 写 入 (Ignore) : 


d2.write.mode(SaveMode.Ignore).parquet("file.parquet") 


你 也 可 以 用 一 个 字符 串 ("overwrite"、"append"、"ignore") 来 指定 SaveMode， 就 像 
用 了 信和 Python 的 DataFrame API 时 一 样 。 











2.8 用 DataFrame API 来 分 析 数 据 


Spark 的 RDD API 为 分 析 数 据 提 供 了 少量 易 用 的 方法 ， 例 如 count() 方法 可 以 计算 一 个 
RDD 包含 的 记录 数 ，countByValue() 方 法 可 以 获取 不 同 值 的 分 布 直方 图 ，RDD[Double] 的 
stats() 方法 可 以 获取 一 些 概要 统计 信息 ， 例 如 最 小 值 、 最 大 值 、 平 均值 和 标准 差 。 但 是 
DataFrame API 的 工具 比 RDD API 更 强大 。 用 惯 了 R、Python 和 SQL 的 数据 科学 家 对 这 
套 工 具 应 该 不 会 觉得 陌生 。 本 节 将 开始 探索 这 套 接口 ， 并 将 它们 应 用 在 记录 关联 数据 上 。 











研究 一 下 DataFrame 对 象 实例 parsed 的 模式 ， 看 一 下 前 几 行 数据 ， 我 们 可 以 看 到 以 下 
特征 。 


。 前 两 个 字段 是 整 型 ID ， 代 表 在 记录 中 匹配 到 的 患者 。 

。 后 面 9 个 值 是 数值 类 型 〈 双 精度 浮 点 数 或 整 型 ， 可 能 有 人 缺失 值 )， 代 表 患 者 记录 数据 中 
不 同 字段 的 匹配 得 分 值 ， 如 名 字 、 生 日 和 住址 。 这 些 字 段 如 果 只 有 匹配 和 不 匹配 两 种 情 
况 ， 则 用 1 表示 匹配 ，0 表示 未 匹配 ， 如 果 有 部 分 匹配 的 情况 ， 则 用 双 精 度 浮 点 数 表 示 。 

。 最 后 一 个 字段 是 布尔 值 (true 或 false)， 表示 这 条 记录 中 的 一 对 患者 是 否 匹 配 。 我 们 
的 目标 是 创建 一 个 简单 的 分 类 器 ， 它 可 以 根据 患者 数据 中 的 匹配 评分 来 预测 一 条 记录 是 
否 匹配 。 我 们 先 调用 count 方法 来 了 解 记录 数 ， 该 方法 在 DataFrame 和 RDD 中 是 完 
相同 的 : 




































































parsed.count() 


res: Long = 5749132 





这 个 数据 集 相 对 较 小 ， 小 到 能 存放 在 集群 中 一 个 节点 的 内 存 上 。 在 没有 集群 可 用 的 情况 
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下 ， 其 至 可 以 存放 在 本 地 机 器 的 内 存 里 。 到 目前 为 止 ， 我们 每 次 处 理 数 据 集中 的 数据 时 ， 
Spark 得 重新 打开 文件 ， 再 重新 解析 每 一 行 ， 然 后 才能 执行 所 需 的 操作 ， 例 如 显示 前 几 行 
或 计算 记录 的 总 数 。 当 我 们 需要 执行 另外 一 个 操作 时 ，Spark 会 反复 执行 读 取 及 解析 操作 ， 
即使 我 们 已 经 从 数据 集中 过 滤 出 少量 的 数据 ， 或 者 对 原始 数据 集 已 经 做 过 聚合 。 


这 种 方式 浪费 了 计算 资源 。 数 据 一 旦 被 解析 完 ， 我们 就 可 以 把 解析 后 的 数据 保存 在 集群 
中 ， 这 样 就 不 必 每 次 都 重新 解析 数据 了 。Spark 支持 这 种 用 例 ， 它 允许 我 们 调用 cache 方 
法 ， 告 诉 RDD 或 DataFrame 在 创建 时 将 它 缓 存在 内 存 中 。 现 在 尝试 缓存 parsed: 


parsed.cache() 


























缓存 
虽然 默认 情况 下 DataFrame 和 RDD 的 内 容 是 临时 的 ， 但 是 Spark 提供 了 一 种 持久 化 底 
层 数 据 的 机 制 : 

Cached.cache() 


cached.count() 
cached. take(10) 


在 上 述 代 码 中 ， 调 用 cache 方法 指示 在 下 次 计算 DataFrame 时 ， 要 把 DataFrame 的 内 
容 缓 存 起 来 。 在 这 个 示例 中 ，DataFrame 的 内 容 是 调用 count 方法 时 得 到 的 ，take 方 
法 返回 DataFrame 的 一 个 本 地 Array[Row]， 它 表示 前 10 个 元 素 。 当 调用 take 时 ， 访 
问 的 是 缓存 ， 而 不 是 从 cached 的 依赖 关系 中 重新 计算 出 来 的 。 


Spark 为 持久 化 数据 定义 了 几 种 不 同 的 机 制 ， 用 不 同 的 StorageLevel 值 表示 。cache() 
是 persist(StorageLevel.Memory) 的 简写 ， 它 将 所 有 Row 对象 存储 为 未 序列 化 的 Java 
对 象 。 当 Spark 预计 内 存 不 够 存放 一 个 分 区 时 ， 它 干脆 就 不 在 内 存 中 存储 这 个 分 区 ， 
这 样 在 下 次 需要 时 就 必须 重新 计算 。 在 对 象 需要 频繁 访问 或 低 迁 访问 时 ， 送 合 使 用 
StorageLevel.MEMORY， 因 为 它 可 以 避免 序列 化 的 开销 。 相 比 其 他 选项 ，StorageLevel. 
MEMORY 的 问题 是 要 占用 更 大 的 内 存 空 间 。 另 外 ， 大 量 小 对 象 会 对 Java 的 垃圾 回收 施加 
压力 ， 会 导致 程序 停顿 和 常见 的 速度 缓慢 问题 。 


Spark 也 提供 了 MEMORY_SER 的 存储 级 别 ， 用 于 在 内 存 中 分 配 大 字 节 缓冲 区 ， 以 存储 记 
录 的 序列 化 内 容 。 如 果 使 用 得 当 ( 稍 后 会 详细 介绍 )， 序 列 化 数据 占用 的 空间 往往 约 为 
未 经 序列 化 数据 的 17%~33%。 

Spark 也 可 以 用 磁盘 来 缓存 数据 。 存储 级 别 MEMORY_AND_DISK 和 MEMORY_AND_DISK_SER 
分 别 类 似 于 MEMORY 和 MEMORY_SER。 对 于 MEMORY 和 MEMORY_SER， 如 果 一 个 分 区 在 内 存 
里 放 不 下 ， 整 个 分 区 都 不 会 放 入 内 存 。 对 于 MEMORY_AND_DISK 和 MEMORY_AND_DISK_SER ， 
如 果 分 区 在 内 存 里 放 不 下 ，Spark 会 将 其 溢 写 到 磁盘 上 。 

虽然 DataFrame 和 RDD 都 可 以 被 缓存 ， 但 是 有 了 DataFrame 的 模式 信息 ，Spark 就 可 
以 利用 数据 的 详细 信息 ， 帮 助 DataFrame 在 持久 化 数据 时 达到 比 使 用 RDD 的 Java 对 
象 高 得 多 的 效率 。 
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决定 何 时 缕 存 数据 是 一 门 艺术 ， 这 个 决定 通常 涉及 空间 和 速度 之 间 的 权衡 ， 而 且 还 要 
时 不 时 受到 垃圾 收集 器 的 影响 ， 因 此 如 何 抉择 是 很 复杂 的 事情 。 一 般 来 说 ， 当 数据 可 
能 被 多 个 操作 依赖 时 ， 并 且 相 对 于 集群 可 用 的 内 存 和 磁盘 空间 而 言 ， 如 果 数 据 集 较 小 ， 
而 且 重 新 生成 的 代价 很 高 ， 那 么 数据 就 应 该 被 缓存 起 来 。 











数据 缓存 完 后 ， 接 下 来 我 们 想 要 知道 ， 记 录 中 匹配 记录 相对 于 不 匹配 记录 的 比例 。 在 使 用 
RDD API 的 情况 下 ， 我 们 需要 编写 一 个 Scala 内 联 函 数 ， 从 每 个 记录 中 提取 列 is_match 的 
值 ， 得 到 一 个 RDD[Boolean] ， 然 后 调用 countByValue 函数 来 统计 true 和 false 出 现 的 频 
率 ， 计 算 完 成 后 将 一 个 Map[Bootean， Long] 返回 给 客户 端 。 事 实 上 ， 我 们 仍然 可 以 对 位 于 
解析 后 的 DataFrame 底层 的 RDD 执行 这 种 计算 。 

parsed.rdd . 


map(_.getAs[BooLean]("is_match'" ) ) . 
countByValue() 


Map(true -> 20931, false -> 5728201) 


DataFrame 封装 的 RDD 由 org.apache.spark.sqL.Row 的 实例 组 成 ， 包 括 通 过 索引 位 置 (从 
0 开始 计数 ) 获取 每 个 记录 中 值 的 访问 方法 ， 以 及 允许 通过 名 称 查找 给 定 类 型 的 字段 的 
getAs[T] 方法 。 


虽然 基于 RDD 的 分 析 能 获得 我 们 想 要 的 结果 ， 但 作为 Spark 上 通用 的 数据 分 析 方 法 ， 它 
还 有 许多 竺 改进 之 处 。 首 先 ， 当 数据 集中 仅 有 几 个 不 同 的 值 时 ， 使 用 countByValue 国 
数 来 进行 统计 是 唯一 的 正确 做 法 。 如 果 有 许多 不 同 的 值 ， 那 么 使 用 一 个 不 返回 结果 到 客 
户 端 的 RDD 函数 将 更 为 高 效 ， 例 如 reduceByKey。 其 次 ， 如 果 需 要 在 随后 的 计算 中 使 用 
countByValue 聚合 函数 返回 的 结果 ， 那 么 我 们 需要 使 用 SparkContext 的 parallelize 方法 
将 数据 从 客户 端 发 回 集群 。 一 般 来 说 ， 对 结构 化 数据 的 聚合 ， 我 们 希望 有 一 种 简单 的 方法 
可 以 适用 于 任何 大 小 的 数据 集 ， 这 正 是 DataFrame API 所 提供 的 功能 : 



































parsed. 
groupBy("is_match"). 
count(). 
orderBy($"count".desc) 
show() 


+-------- +------- 十 
|is_ match| count| 


| false|5728201| 
| true| 20931| 
+-------- +------- 十 


我 们 不 需要 再 写 一 个 函数 来 解析 is_match 列 ， 只 需要 将 列 名 is_match 传递 给 DataFrame 
的 groupBy 方法 ， 然 后 调用 count() 方法 计算 每 个 分 组 的 记录 数 ， 再 将 结果 按 count 列 降 
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序 排 序 ， 最 后 简单 地 通过 show 方法 就 可 以 将 计算 结果 呈现 在 REPL 中 。 幕 后 的 Spark 引 
擎 决定 了 如 何 最 高 效 地 执行 聚合 并 返回 结果 ， 而 用 户 无 须 担 心底 层 RDD API 使 用 的 细节 。 
在 基于 Spark 的 数据 分 析 中 ， 这 显然 是 一 种 更 简单 、 更 快速 、 更 有 表现 力 的 方法 。 


值得 注意 的 是 ， 我 们 有 两 种 方式 引用 DataFrame 的 列 名 : 作为 字面 量 引用 ， 例 如 groupBy 
("is_match"); 或 者 作为 CoLumn 对 象 应 用 ， 例 如 count 列 上 使 用 的 特殊 语法 $"<col>"。 这 
两 种 方法 在 大 多 数 情况 下 都 是 合法 的 ， 但 是 在 count 列 上 调用 desc 方法 时 需要 使 用 $ 语 
法 。 如 果 汤 掉 了 字符 串 前 面 的 $ 符 号 ，Scala 就 会 抛 出 一 个 错误 ， 因 为 类 String 没有 一 个 
名 为 desc 的 方法 。 














DataFrame 的 聚合 函数 


除了 count 方 法 以 外 ， 结 合 DataFrame API 的 agg 方 法 和 org.apache.spark.sql. 
functions 包 中 定义 的 聚合 函数 ， 我 们 可 以 计算 更 复杂 的 聚合 分 析 ， 比 如 总 和 、 最 小 
值 、 最 大 值 和 标准 差 。 例如， 为 了 求 parsed 的 cmp_sex 字段 的 整体 均值 和 标准 差 ， 我 
们 可 以 这 样 写 代 码 : 

parsed.agg(avg($" 二 sex"), stddev($"cmp_sex")).show() 

| avg(cmp_sex) ns | 

+----------------- +-------------------- + 


10.955001381078048| 0.2073011111689795| 
4- +- + 


注意 ， 默 认 情 况 下 Spark 只 计算 样本 标准 差 ; 要 计算 总 体 标准 差 ， 需要 使 用 stddev_ 
pop 通 数 。 











你 可 经 注意 到 ，DataFrame API 的 函数 很 像 SQL 查询 组 件 ， 这 并 不 是 一 个 巧合 。 事 实 
| DataFrame 都 看 作 数 据 库 中 的 一 张 表 ， 并 且 可 以 使 用 熟悉 而 又 
强大 的 SQL 语法 来 表达 我 们 的 问题 。 首 先 ， 将 DataFrame 对 象 parsed 所 关联 的 表 名 告诉 
Spark SQL 引擎 ， 因 为 parsed 这 个 变量 名 对 于 Spark SQL 引擎 是 不 可 用 的 : 





hl 











parsed.createOrReplaceTempView("linkage") 





因为 parsed 这 个 DataFrame 变量 只 在 这 个 Spark REPL 的 会 话 中 可 用 ， 所 以 linkage 现在 
是 一 张 临时 表 。Spark SQL 也 可 以 用 于 查询 HDFS 中 的 持久 性 表 ， 只 要 我 们 设置 Spark 连 
接 Apache Hive metastore，metastore 记录 了 结构 化 数据 集 的 模式 和 位 置 。 当 临时 表 在 Spark 
SQL 引擎 中 注册 后 ， 我 们 可 以 这 样 查询 它 : 




















spark.sql(""" 
SELECT is_match, COUNT(*) cnt 
FROM linkage 
GROUP BY is_match 
ORDER BY cnt DESC 
"").show() 





+-------- +------- 十 


|is_match| cnt| 
+-------- +------- + 
| false|5728201| 
| true| 20931| 
+-------- +------- 十 


和 Python 一 样 ，Scala 中 3 个 连续 的 双 引 号 可 以 用 来 表示 一 个 跨 多 行 的 字符 串 。Spark 1.x 
的 Spark SQL 编译 器 主要 是 为 了 兼容 HiveQL 中 的 非 标准 语法 ， 这 样 用 户 就 能 比较 容易 地 
从 Apache Hive 迁移 到 Spark 上 来 。Spark 2.0 默认 使 用 兼容 ANSI 2003 的 Spark SQL， 当 
然 我 们 也 可 以 选择 使 用 HiveQL 模式 ， 只 需 通 过 Spark Sesssion 的 Builder API 创建 一 个 
SparkSession 实例 ， 然 后 调用 enabLeHiveSupport 方法 即 可 。 














在 Spark 中 进行 数据 分 析 ， 到 底 是 应 该 使 用 Spark SQL 还 是 DataFrame API 呢 ? 这 两 种 
方法 各 有 利弊 。SQL 大 家 都 很 熟悉 ， 简 单 的 查询 很 容易 表达 。 在 常用 的 列 式 存储 中 ， 如 
ORC 和 Parquet，SQL 是 快速 读 取 和 过 滤 存 储 最 好 的 方式 。SQL 的 缺点 是 很 难 用 动态 、 可 
读 和 可 测试 的 方式 来 表达 复杂 的 多 阶段 分 析 ， 而 这 些 都 是 DataFrame API 的 强项 。 在 本 书 
的 其 余 章 节 ，Spark SQL 和 DataFrame API 二 者 都 会 使 用 。 读 者 可 以 思考 一 下 我 们 为 什么 
这 样 选择 ， 并 练习 如 何在 二 者 之 间 进 行 转换 。 












































Spark SQL 与 Hive 的 连接 


Spark 1x 有 一 个 HiveContext 类 ， 它 是 SQLContext 的 子 类 ， 并 支持 Hive 特有 的 SQL 
方言 一 一 HiveQL。 如 果 复 制 一 个 hive-site.xml 文件 到 Spark 安装 目录 的 conf 文件 夹 
下 ，HiveContext 就 可 以 跟 Hive metastore 交互 了 。 在 Spark 2x 中， 虽然 HveContext 
被 齐 用 了 ， 但 是 仍然 可 以 通过 hive-site.xml 文件 连接 到 Hive metastore， 还 可 以 调用 
SparkSession Builder API 的 enableHiveSupport 方法 来 使 用 HiveQL 语法 进行 查询 。 
val sparkSession = SparkSession.builder. 
master("local[4]") 


.enableHiveSupport() 
.getOrCreate() 


在 Spark 27 中 ， 你 可 以 将 Hive metastore 中 任何 一 张 表 视 为 一 个 DataFrame， 并 可 以 
使 用 Spark SQL 对 metastore 中 的 表 进 行 查 询 ， 还 可 以 将 这 些 查询 结果 保存 在 metastore 
中 ,这 样 它们 就 可 以 被 其 他 SQL 工具 访问 到 了 ， 包 括 Hive 自身 、Apache Impala 和 
Presto 等 。 











2.9 _ DataFrame 的 统计 信息 


虽然 在 许多 数据 分 析 工 作 中 ， 无 论 使 用 SQL 还 是 DataFrame， 结 果 都 是 一 样 的 ， 但 是 仍 有 
一 些 常见 工作 ， 用 DataFrame 表示 起 来 很 简洁 ， 而 用 SQL 却 显 得 很 元 余 。 例 如 ， 计 算 一 个 
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DataFrame 中 数值 列 所 有 非 空 值 的 最 小 值 、 最 大 值 、 平 均值 和 标准 差 。 在 R 中 ， 这 个 函数 
叫 summary; 在 Spark 中 ， 这 个 函数 叫 describe， 与 Pandas 中 相同 : 





























val summary = parsed.describe() 


summary.show() 





DataFrame 类 型 的 parsed 实例 中 的 每 个 变量 ， 在 DataFrame 类 型 的 summary 实例 中 都 有 相 
对 应 的 一 列 ;， 还 有 一 个 名 为 summary 的 列 ， 用 于 指示 count、mean、stddev、min 和 max 这 
5 个 指标 在 行 中 是 否 出 现 。 为 了 让 summary 的 统计 信息 更 便于 阅读 和 比较 ， 我 们 可 以 使 用 
select 方法 来 选 出 一 部 分 列 : 


summary.select("summary", "cmp_fname_c1", "cmp_fname_c2").show() 
+------- +------------------ +------------------ + 
|summary| cmp_fname_c1| cmp_fname_c2| 
+------- +------------------ +------------------ + 
| count| 5748125| 103698| 
| mean|0.7129024704436274|10.9000176718903216 | 
| stddev|0.3887583596162788|0.2713176105782331| 
| min| 0.0| 0.0| 








请 注意 ，cmp_fname_cl 和 cmp_fname_c2 的 count 变量 值 并 不 相同 : 几乎 每 条 记录 的 cmp_ 
fname_c1 都 是 非 空 的 ， 而 只 有 2% 的 记录 中 cmp_fname_c2 字段 是 非 空 的 。 为 了 得 到 一 个 有 
用 的 分 类 器 ， 模 型 依赖 的 那些 变量 在 数据 中 不 能 有 太 多 缺失 值 ， 除 非 这 些 值 的 缺失 也 表示 
某 种 与 记录 是 否 匹 配 相 关 的 含义 。 


在 对 数据 中 变量 的 分 布 有 了 大 体 的 了 解 后 ， 我 们 就 想 知道 这 些 变量 与 列 is_match 的 值 之 
间 的 相关 性 。 因 此 ， 接 下 来 我 们 对 parsed 中 is_match 字段 为 true 和 false 的 两 个 子 集 计 
算 概 要 统计 信息 。 我 们 既 可 以 使 用 SQL 风格 的 where 语法 ， 也 可 以 使 用 DataFrame API 的 
Column 对 象 来 过 滤 DataFrame， 然 后 对 得 到 的 DataFrame 使 用 describe 方法 : 





























val matches = parsed.where("is match = true") 
val matchSummary = matches.describe() 


val misses = parsed.filter($"is match" === false) 
val missSummary = misses.describe() 





where 函数 的 字符 串 的 内 部 逻辑 如 果 放 到 Spark SQL 的 WHERE 子 句 中 ,语法 也 是 正确 的 。 
使 用 DataFrame API 方式 的 过 滤 条 件 稍微 复杂 一 点 : 我 们 需要 对 列 $"is_match" 使 用 === 
操作 符 ， 并 且 还 需要 用 tit 方 法 封装 布尔 文字 false， 这样 就 可 以 将 其 转换 成 能 与 is_ 
match 做 对 比 的 Column 对 象 。 需 要 注意 的 是 ，where 函数 是 filter 函数 的 一 个 别名 ,我们 
可 以 随意 调换 上 述 代 码 片 段 中 的 where 和 filter， 而 结果 不 会 发 生 任 何 变 化 。 





























现在 我 们 比较 matchsummary 和 missSummary 这 两 个 DataFrame， 这 样 就 能 知道 记录 的 匹配 
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情况 对 变量 的 分 布 有 何 影响 。 尽 管 数据 集 相 对 较 小 ， 单 做 这 种 比较 也 没有 多 大 意思 ， 但 其 
实 我 们 真正 想 做 的 是 对 matchSummary 和 missSummary 这 两 个 DataFrame 做 一 个 转 置 ， 将 它 
们 的 行 与 列 调换 ， 这 样 就 可 以 将 两 个 转 置 过 的 DataFrame 按 变量 关联 起 来 ， 以 便 分 析 这 些 
概要 统计 信息 ， 这 种 做 法 被 大 多 数 数据 科学 家 称 为 “数据 集 转 置 ”(pivoting) 或 “ 重 塑 ” 
(reshaping)。 下 一 节 将 展示 如 何在 Spark 中 执行 这 些 转 换 。 


2.10 DataFrame 的 转 置 和 重 塑 


为 了 转 置 概要 统计 信息 ， 首 先 要 做 的 是 将 matchSsummary 和 missSummary 这 两 个 DataFrame 
类 型 实例 从 “ 宽 表 ”转换 成 “长 表 "。 宽 表 中 行 代表 指标 ， 列 代表 变量 ， 长 表 的 每 一 行 代 
表 一 个 指标 、 一 个 变量 ， 以 及 指标 和 变量 对 应 的 值 。 转 换 完 成 后 ， 我 们 就 可 以 将 长 表 形 式 
的 DataFrame 转换 成 另外 一 个 宽 表 形式 的 DataFrame， 这 样 就 完成 了 转 置 操作 ， 只 不 过 这 
一 次 操作 中 ， 变 量 对 应 行 ， 指 标 对 应 列 。 



































将 宽 表 转 换 成 长 表 ， 可 以 利用 DataFrame 的 flatMap 方法 ， 它 是 RDD.flatMap 的 一 个 封装 。 
flatMap 是 Spark 中 最 有 用 的 转换 函数 之 一 ， 它 接受 一 个 函数 作为 参数 ， 该 函数 处 理 一 条 输 
入 记录 ,并 返回 一 个 包含 零 条 或 多 条 输出 记录 的 序列 。 你 可 以 将 flatMap 看 作 我 们 使 用 过 的 
map 和 filter 转换 函数 的 一 般 形 式 : map 是 flatMap 的 一 种 特殊 形式 ， 即 一 条 输入 记录 仅 产 
生 一 条 输出 记录 ; filter 是 flatMap 的 另 一 种 特殊 形式 ,， 即 输入 和 输出 类 型 相同 ,并且 基 于 
一 个 布尔 函数 决定 返回 零 条 或 一 条 记录 。 





























为 了 让 flatMap 方法 在 一 般 的 DataFrame 上 也 能 工作 ， 要 用 到 DataFrame 的 schema 对 象 来 
获取 DataFrame 每 一 列 的 名 字 : 





summary.printSchema() 
root 
|-- summary: string (nullable = true) 
|-- id_1: string (nullable = true) 
|-- id 2: string (nullable = true) 
|-- cmp_fname_c1: string (nullable = true) 


在 summary 实例 的 schema 变量 中 ， 每 个 字段 都 被 视 为 一 个 字符 串 。 要 想 分 析 数 值 形式 的 
统计 信息 ， 需 要 将 字符 串 转 换 为 双 精 度 浮 点 数 ， 输 出 的 DataFrame 应 该 有 3 列 : 指标 名 称 
(count、mean 等 )、 列 名 (id1、cmp_by 等 )， 以 及 该 列 统计 信息 的 双 精 度 值 。 








val schema = summary.schema 
val LongForm = summary.flatMap(row => { 
val metric = row.getString(0) 
(1 until row.size).map(i => { 
(metric, schema(i).name, row.getString(i).toDouble) 
}) 
}) 
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以 上 代码 族 段 做 了 很 多 事情 ， 让 我 们 和 逐 行进 行 分 析 。 对 DataFrame 类 型 的 summary 的 每 一 行 ， 
我 们 通过 调用 row.getString(9) 来 依据 位 置 获得 这 个 指标 的 名 称 。 对 于 这 一 行 中 位 置 1 后 的 
其 他 列 ， 我 们 调用 flatMap 操作 ， 生 成 了 一 个 元 组 序列 。 元 组 中 第 一 个 条 目 是 指标 的 名 称 ， 
第 二 个 条 目 是 列 的 名 字 (通过 schema(i).name 对 象 获取 )， 第 三 个 条 目 是 统计 量 的 值 ， 我 们 
用 强制 类 型 转换 将 row.getstring(i) 方法 获取 的 字符 串 解 析 成 一 个 双 精 度 浮 点 数 。 


toDouble 方法 是 隐 式 转换 的 一 个 实例 ， 而 隐 式 类 型 是 Scala 最 强大 (也 可 能 最 危险 ) 的 特 
性 之 一 。 在 Scala 中， 类 String 的 实例 其 实 就 是 java.lang.String， 而 java.lang.String 
类 并 没有 名 为 toDouble 的 方法 ， 相反， 这 个 方法 定义 在 一 个 名 为 StringOps 的 Scala 类 中 。 
隐 式 转换 的 工作 原理 如 下 : 当 在 Scala 的 对 象 上 调用 一 个 方法 ， 并 且 Scala 编译 器 没有 在 该 
对 象 上 的 类 定义 中 找到 这 个 方法 ， 那 么 编译 器 就 会 尝试 将 你 的 对 象 转换 成 拥有 这 个 方法 的 
类 的 实例 。 在 这 种 情况 下 ， 编 译 器 会 发 现 Java 的 String 类 没有 定义 toDouble 方法 ， 而 类 
stringOps 中 却 有 这 个 方法 ， 并 且 String0ps 类 还 有 一 个 方法 可 以 将 String 类 的 实例 转换 
成 String0ps 类 的 实例 。 编 译 器 悄悄 地 将 String 对 象 转换 成 String0ps 对 象 ， 并 调用 新 对 
象 的 toDouble 方法 。 


Scala 类 库 开 发 人 员 (包括 Spark 核心 开发 者 ) 非常 喜欢 隐 式 转换 类 型 。 它 允许 开发 者 增强 
核心 类 的 功能 ， 这 样 即使 是 像 String 这 种 不 允许 修改 的 类 也 可 以 进行 增强 。 但 对 这 些 工具 
的 用 户 来 说 ， 隐 式 类 型 转换 就 不 那么 简单 了 ， 因 为 隐 式 类 型 转换 使 得 用 户 难以 找到 定义 类 
方法 的 确切 位 置 。 尽 管 如 此 ， 我 们 还 会 在 示例 中 过 到 一 些 隐 式 转换 ， 所 以 我 们 有 必要 提前 
熟悉 一 下 。 

































































这 个 代码 块 中 最 后 需要 注意 的 一 点 是 变量 LongFornm 的 类 型 ; 
LongForm: org.apache.spark.sql.Dataset[(String, String, Double)] 


这 是 我 们 第 一 次 直接 使 用 Dataset[T] 接口 ， 尽 管 我 们 一 直 在 使 用 它 的 一 个 特例 DataFrame， 
DataFrame 其 实 是 Dataset[Row] 类 型 的 别名 。Dataset[T] 是 Spark 2.0 中 新 添加 的 API， 它 
是 Spark 1.3 中 引入 的 DataFrame 类 型 的 一 般 化 ， 能 够 处 理 比 Row 更 丰富 的 数据 类 型 。 本 章 
稍 后 将 更 详细 地 介绍 Dataset 的 接口 ， 但 是 现在 你 需要 知道 的 是 ， 由 于 Spark API 中 的 一 
些 巧妙 的 隐 式 转换 ， 我 们 总 是 可 以 将 Dataset 转换 回 DataFrame: 




















val longDF = longForm.toDF("metric", "field", "value") 
LongDF.show() 


+------ +------------ +------------------- + 
Imetric|] field| value| 
+------ +------------ +------------------- 十 
| count| id_1| 5749132.0| 
| count| id_2| 5749132.0| 
| count|cmp_fname_c1| 5748125.0| 
| count| cmp_by| 5748337.0| 
| count| cmp_plz| 5736289.0| 
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| mean| id_1| 33324.48559643438| 
| mean| id 2| 66587.43558331935| 
| mean|cmp_fname_c1| 0.7129024704436274| 


| mean| cmp_bd|0.22446526708507172| 
| mean| cmp_bm|0.48885529849763504| 
+------ +------------ +------------------- + 


给 定 一 个 DataFrame 长 表 ， 可 以 得 到 这 样 一 个 宽 表 : 对 用 作 转 置 表 行 的 列 执行 groupBy 操 
作 ， 然 后 对 用 作 转 置 表 列 的 列 执行 pivot 操作 。pivot 操作 需要 知道 转 置 列 的 所 有 不 同 值 ， 
对 列 values 使 用 agg(first) 操作 , 我 们 就 可 以 指定 宽 表 中 每 个 单元 格 的 值 , 因为 每 个 field 
和 metric 的 组 合 都 只 有 一 个 值 ， 所 以 这 样 做 是 没 问题 的 : 

















val wideDF = LongDF . 
groupBy("field"). 
pivot("metric", Seq("count", "mean", "stddev", "min", "max")). 
agg(first("value")) 

wideDF.select("field", "count", "mean").show() 


| cmp_plz|5736289.0|0.00552866147434343| 
|cmp_lname_c1|5749132.0| 0.3156278193084133| 
|cmp_Lname_c2| 2464.0|0.31841283153174377| 
| cmp_sex|5749132.0| 0.955001381078048| 
| cmp_bm| 5748337.0|0.48885529849763504| 


| cmp_bd|5748337.0|0.22446526708507172| 
| cmp_by|5748337.0| 0.2227485966810923| 
+--------- +--------- +- -i + 


现在 我 们 已 经 知道 了 如 何 转 置 一 个 DataFrame 类 型 的 summary， 让 我 们 将 这 段 逻辑 用 一 个 
函数 实现 ， 这 样 就 可 以 在 matchSummary 和 missSummary 这 两 个 DataFrame 中 重用 了 。 在 另 
一 个 shell 窗口 中 使 用 文本 编辑 器 ， 复 制 并 粘贴 以 下 代码 ， 并 保存 到 一 个 名 为 Pivot.scala 的 
文件 中 : 





import org.apache.spark.sqL.DataFrame 
import org.apache.spark.sqL.functions .first 


def pivotSummary(desc: DataFrame): DataFrame = { 
val schema = desc.schema 
import desc.sparkSession.implicits._ 


val lf = desc.flatMap(row => { 
val metric = row.getString(0) 
(1 until row.size).map(i => { 
(metric, schema(i).name, row.getString(i).toDouble) 
}) 
}).toDF("metric", "field", "value") 
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lf.groupBy("field"). 


pivot("metric", Seq("count", "mean", "stddev", "min", "max")). 


agg(first("value")) 


J} 


现在 在 Spark shell 中 键入 load Pivot.scala，Scala REPL 将 会 动态 编译 你 的 代码 ， 使 


pivotSummary 图 数 对 matchSummary 和 missSummary 都 可 用 : 


2.11 





val matchSummaryT = pivotSummary(matchSummary) 
val missSummaryT = pivotSummary(missSummary) 


DataFrame 的 连接 和 特征 选择 


到 目前 为 止 ， 我 们 只 用 了 Spark SQL 和 DataFrame API 来 过 滤 和 聚合 一 个 数据 集中 的 记录 ， 
但 是 也 可 以 使 用 这 些 工具 来 完成 DataFrame 之 间 的 连接 (内 连接 、 左 外 连接 、 右 外 连接 和 
全 连接 )。 尽 管 DataFrame API 有 一 个 join 函数 ， 但 是 用 Spark SQL 来 表示 这 些 连 接 会 更 
容易 ， 特 别 是 当 待 连接 的 表 中 有 许多 列 名 在 两 个 表 中 都 存在 时 ， 通 过 select 表达 式 能 更 方 





便 地 指 H 


视图 





好 的 特征 有 两 个 特点 : 
(因此 ， 平 均值 之 间 的 差距 是 很 大 的 ) ; 
存在 值 ， 所 以 我 们 可 以 依赖 它 。 按 照 这 个 标准 ，cmp_fname_c2 并 不 是 很 有 用 ， 
多 时 候 都 是 缺失 的 ， 而 且 对 于 匹配 的 记录 和 不 匹配 的 记录 ， 该 特 生 





























所 引用 的 列 。 让 我 们 为 matchsummary 和 missSummary 这 两 个 DataFrame 创建 临时 


， 在 field 列 上 连接 它们 ， 并 在 结果 行 上 计算 一 些 简单 的 统计 信息 : 


matchSummaryT.createOrReplaceTempView("match_desc") 
missSummaryT.createOrReplaceTempView("miss_desc") 


spark.sql( 


SELECT a.field, a.count + b.count total, a.mean - b.mean delta 
FROM match_desc a INNER JOIN miss desc b ON a.field = b.field 
WHERE a.field NOT IN ("id 1", "id_2") 
ORDER BY delta DESC, total DESC 


""").show() 


| cmp_plz|5736289.0| 
2464.0| 
| cmp_by|5748337.0| 
| cmp_bd|5748337.0| 
|cmp_lname_c1|5749132.0| 
| cmp_bm|5748337.0| 
|cmp_fname_c1|5748125.0| 


|cmp_lname_c2| 


0.9563812499852176| 
0.8064147192926264| 
0.7762059675300512| 

0.775442311783404| 
0.6838772482590526| 
0.5109496938298685| 
0.2854529057460786| 


|cmp_fname_c2| 103698.0| 0.09104268062280008| 
| cmp_sex|5749132.0|0.032408185250332844| 
+----- +--------- +- -7 + 
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币 一 ， 














T 


第 一 ， 对 于 匹配 的 记录 和 不 匹配 的 记录 ， 该 特征 的 值 有 明显 不 同 
对 于 数据 集 的 任何 记录 对 ， 该 特征 通常 都 

















因为 它 在 很 
E 的 平均 值 差异 相对 较 











小 一 一 取 值 范围 都 是 0~1， 而 平均 值 之 差 只 有 0.09。cmp_sex 特征 也 不 是 特别 有 用 ， 虽 然 它 
在 每 对 记录 中 都 出 现 了 ， 但 是 平均 值 仅 相差 0.03。 











相 比 之 下 ，cmp_plz 和 cmp_by 这 两 个 特征 就 非常 好 ， 它 们 几乎 出 现在 每 一 对 记录 中 ， 而 且 
平均 值 的 差 值 也 很 大 (这 两 个 特征 都 超过 了 0.77)。cmp_bd、cmp_lname_cl 和 cmp_bm 这 些 
特征 看 起 来 也 有 用 : 它们 在 数据 集中 总 体 上 都 是 有 值 的 ， 并 且 匹 配 记录 的 平均 值 和 不 匹配 
记录 的 平均 值 差 值 较 大 。 




















特征 cmp_fname_c1 和 cmp_Lname_c2 情况 比较 复杂 : cmp_fname_cl 区 分 得 不 是 很 好 (均值 
的 差 值 只 有 0.28) ， 但 是 在 每 对 记录 中 几乎 都 不 会 缺席 ，cmp_Lname_c2 的 平均 值 相差 很 大 ， 
但 是 在 很 多 记录 中 都 是 缺失 的 。 基 于 这 份 数据 ， 我 们 不 是 很 清楚 在 什么 情况 下 应 该 在 我 们 
的 模型 中 加 入 这 两 个 特征 。 



































现在 ， 我 们 将 基于 cmp_plz、cmp_by、cmp_bd、cmp_lname_c1 以 及 cmp_bm 这 些 明 显 很 好 的 
特征 值 之 和 ， 构 建 一 个 简单 的 评分 模型 ， 对 记录 的 相似 性 进行 排序 。 对 于 少数 缺少 这 些 
特征 值 的 记录 ， 我 们 将 在 求 和 时 使 用 8 来 替代 nutL。 通 过 创建 一 个 由 计算 出 的 评分 与 is_ 
match 列 组 成 的 DataFrame， 对 区 分 匹配 记录 和 不 匹配 记录 的 评分 设置 多 种 不 同 的 国 值 并 评 
佑 效果 ， 我 们 就 能 对 这 个 简单 模型 的 性 能 有 一 个 大 体 认识 


2.12 为 生产 环境 准备 模型 


尽管 我 们 可 以 把 评分 函数 写成 一 个 Spark SQL 的 查询 ， 但 是 在 很 多 情况 下 ， 我 们 希望 能 将 
全 分 规则 或 机 器 学 习 模型 部 署 到 生产 环境 中 ， 在 那里 并 没有 足够 的 时 间 运 行 Spark SQL 来 

得 到 答案 。 对 于 这 些 情况 ， 我 们 希望 编写 和 测试 的 函数 能 够 在 Spark 上 运行 ， 但 是 生产 代 
a Spark JAR 包 ， 也 不 需要 运行 SparkSession 来 执行 代码 。 


为 了 剥离 出 模型 中 Spark 特定 的 组 件 ， 我 们 希望 有 一 种 创建 简单 记录 类 型 的 方法 ， 从 而 
可 以 将 DataFrame 中 的 字段 视 作 静 态 类 型 的 变量 ， 而 不 用 在 Row 中 动态 查找 。 幸 和 运 的 是 ， 
Scala 提供 了 一 种 便捷 的 语法 来 创建 这 些 记 录 ， 称 为 case 类 。case 类 是 一 个 简单 的 不 可 变 
类 ， 它 默认 实现 了 所 有 Java 类 的 基本 方法 ,例如 toString、equals 和 hashCcode， 使 其 非常 
容易 使 用 。 让 我 们 为 记录 关联 数据 创建 一 个 case 类 ， 其 中 字段 名 字 及 其 类 型 与 DataFrame 
parsed 中 列 的 名 字 和 类 型 一 一 对 应 : 





























下 

































































case class MatchData( 

id_1: Int, 

id 2: Ints 

cmp_fname_c1: Option[Doublel], 
cmp_fname_c2: Option[Doublel], 
cmp_Lname_c1: Option[Doublel], 
cmp_lname_c2: Option[Doublel], 
cmp_sex: Option[Int], 

cmp_bd: Option[Int], 
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cmp_bm: Option[Int], 
cmp_by: Option[Int], 
cmp_plz: Option[Int], 
is_match: Boolean 


) 


值得 注意 的 是 ， 我 们 使 用 了 Scala 内 建 的 Option[T] 类 型 来 表示 输入 数据 中 字段 的 值 是 否 
为 nuLL。 在 使 用 之 前 ，0ption 类 需要 客户 端 节点 检查 特定 的 字段 是 否 为 空 (使 用 None 对 
象 表示 )， 以 避免 Scala 代码 中 抛 出 NullPointerExceptions。 像 id_ 1、id 2 和 is_match 这 
种 不 含 null 值 的 字段 ， 可 以 不 使 用 0ption 封装 。 














定义 了 类 之 后 ， 我 们 就 可 以 使 用 as[T] 方法 将 parsed 转换 为 Dataset[MatchData]: 


val matchData = parsed.as[MatchData] 
matchData. show() 





如 你 所 见 ，matchData 这 个 Dataset 中 所 有 的 列 和 值 与 parsed 这 个 DataFrame 中 的 数据 是 
一 样 的 ， 我 们 仍然 可 以 对 matchData 使 用 所 有 SQL 风格 的 DataFrame API 方法 以 及 Spark 
SQL 代码 。 两 者 之 间 的 主要 区 别 是 ， 当 我 们 对 matchData 调用 函数 时 ， 例 如 map、flatMap 
和 fiLter， 我 们 处 理 的 是 MatchData 这 个 case 类 ， 而 不 是 Row 类 。 











对 于 评分 函数 ， 我 们 将 计算 一 个 Option[Double] 类 型 的 字段 (cmp_Lnane_c1) 和 4 个 
Option[Int] 类 型 的 字段 (cmp_plz、cmp_by、cmp_bd 以 及 cmp_bm) 的 总 和 。 让 我 们 写 一 个 
小 助手 case 类 来 减少 检查 0ption 值 是 否 存在 的 一 些 相 关 样 板 代码 : 
Case class Score(vaLue: Double) { 
def +(ot: Option[Int]) = { 
Score(vaLue + oi.getOrElse(0)) 


} 
} 


case 类 Score 以 一 个 Double 类 型 的 值 (当前 和 ) 开始 ， 并 定义 了 一 个 \+ 方 法 。 该 方 
法 取 0ption 中 当前 和 的 值 ， 如 果 有 值 的 话 就 取 该 选项 的 值 ， 否 则 返回 6， 这 样 它 就 将 
Option[Int] 值 合并 到 当前 和 中 。 为 了 使 评分 函数 的 名 称 更 容易 理解 ， 这 里 我 们 用 到 了 
Scala 的 一 个 特点 : 对 函数 名 称 的 限制 没有 Java 那么 死板 ，Scala 函数 名 的 选择 更 广 。 























def scoreMatchData(md: MatchData): Double = { 
(Score(md.cmp_Lname_c1.getOrELse(0.0)) + md.cmp_plz + 
md.cmp_by + md.cmp_bd + md.cmp_bm).vaLue 
} 


实现 了 评分 函数 后 ， 我 们 现在 可 以 计算 matchData Dataset 中 的 每 个 MatchData 对 象 的 分 数 
和 is_match 字段 的 值 ， 并 将 结果 存储 在 一 个 DataFrame 中 : 








val scored = matchData.map { md => 
(scoreMatchData(md), md.is match) 
}.toDF("score", "is_ match") 





34 | 第 2 章 


2.13 评估 模型 


创建 评分 函数 的 最 后 一 步 是 决定 分 数 的 阔 值 ， 超 过 该 国 值 就 预测 这 两 个 记录 是 匹配 的 。 如 
果 国 值 设 置 过 高 ， 匹 配 的 记录 将 被 错误 地 标记 为 不 匹配 ， 这 种 情况 称 为 假 阴 性 率 (false- 
negative rate) ;而 如 果 国 值 设置 过 低 ， 不 匹配 的 记录 将 被 错误 地 标记 为 匹配 ， 这 种 情况 称 
为 假 阳 性 率 (false-positive rate) 。 对 于 任何 非 平凡 的 问题 ， 我 们 总 是 需要 在 假 阳 性 和 假 阴 
性 之 间 进 行 取 侍 ， 而 病 值 的 设置 通常 与 模型 应 用 的 实际 情况 有 关 ， 需 要 在 两 种 错误 的 相对 
代价 之 间 进 行 权衡 。 
































为 了 帮助 我 们 选择 闷 值 ， 可 以 创建 一 个 2x2 的 关联 表 [ 也 称 为 交叉 制 表 (cross tabulation ) 
或 交叉 表 (crosstab) ]， 它 统计 记录 中 分 数 低 于 /高 于 阔 值 的 记录 数 ， 以 及 两 个 类 别 中 匹 
配 /不 匹配 的 记录 数 。 因 为 尚 不 知道 将 要 使 用 的 阔 值 ， 所 以 我 们 要 编写 一 个 国 数 ， 它 使 用 
DataFrame API， 并 以 scored 这 个 DataFrame 和 选择 的 国 值 作为 参数 计算 交叉 表 














def crossTabs(scored: DataFrame，t: Double): DataFrame = { 
scored. 
selectExpr(s"score >= St as above", "is_ match"). 
groupBy("above"). 
pivot("is_match", Seq("true", "false")). 
count() 


} 


注意 ， 我 们 引入 了 DataFrame API 的 selectExpr 方法 ， 基 于 tt 参数 的 值 动态 地 决定 字段 
above 的 值 ， 这 里 使 用 了 Scala 的 字符 串 替 换 语 法 。Scala 字符 串 替 换 语法 允许 我 们 使 用 名 
称 替 换 变量 ， 只 要 在 字符 串 字 面 量 前 加 上 一 个 字母 s (又 一 个 Scala 隐 式 技巧 带 来 的 便利 )。 
定义 完 上 述 字 段 ， 我 们 就 可 以 创建 一 个 通常 由 groupBy、pivot 和 count 方法 三 者 组 合 而 成 
的 交叉 表 。 


使 用 一 个 较 高 的 国 值 4.0， 意 味 着 5 个 特征 的 平均 值 为 0.8， 可 以 过 滤 掉 几乎 所 有 的 不 匹配 
记录 ， 同 时 保留 90% 的 匹配 记录 。 




































































crossTabs(scored, 4.0).show() 


+----- +----- +------- + 
|above| true| faLse| 
+----- +----- +------- + 
| true|20871| 637| 
|faLse| 60|5727564| 
+----- +----- +------- + 


使 用 一 个 较 低 的 国 值 2.0， 可 以 保证 捕捉 到 所 有 已 知 的 匹配 记录 ， 但 代价 是 假 阳 性 〈 见 右 
上 方 的 单元 格 ) 很 高 : 





crossTabs(scored, 2.0).show() 
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+----- +----- +------- 十 
|above| true| faLse| 
+----- +----- +------- 十 
| true|20931| 596414| 
|faLse| null|5131787| 
+----- +----- +------- + 


尽管 假 阳 性 的 数量 有 点 儿 多 ， 但 这 个 比较 宽松 的 过 滤器 仍然 去 掉 了 90% 的 不 匹配 记录 ， 同 
时 保留 了 所 有 的 真正 匹配 。 虽 然 这 已 经 很 好 了 ， 但 是 还 有 改进 空间 ;读者 可 以 试 一 下 能 否 
找到 一 个 更 好 的 评分 函数 ， 这 个 函数 要 能 成 功 地 识别 每 一 个 真正 的 匹配 ， 并 且 保 持 假 阳性 
少 于 100 个 ， 它 可 以 使 用 来 自 MatchData 的 其 他 值 (包括 缺失 和 不 缺失 的 )。 














2.14 小结 


在 阅读 本 章 之 前 ， 你 可 能 还 没有 用 Scala 和 Spark 做 过 数据 准备 和 分 析 ; 或 者 你 已 经 熟悉 
Spark 1.0 API， 现 在 正在 努力 学 习 Spark 2.0 中 的 新 技术 。 无 论 何 种 情况 ， 我 们 都 希望 你 能 
体会 到 这 些 工具 提供 的 强大 支持 。 如 果 你 已 经 有 了 使 用 Scala 和 Spark 的 经 验 ， 我 们 希望 
你 把 本 章 介 绍 给 你 的 朋友 和 同事 ， 让 他 们 也 了 解 Scala 和 Spark 的 强大 之 处 。 


本 章 的 目标 是 为 你 提供 足够 的 Scala 知识 ， 以 便 能 够 理解 并 完成 本 书 中 的 其 他 实例 。 如 果 你 
习惯 通过 实例 来 学 习 ， 那 你 得 继续 看 看 后 面 几 章 ， 届 时 将 介绍 Spark 的 机 器 学 习 库 MLlib。 



































当 你 成 为 资深 Spark 和 Scala 数据 分 析 人 员 时 ， 可 能 需要 开始 构建 工具 和 类 库 ， 以 帮助 
其 他 分 析 师 和 数据 科学 家 应 用 Spark 来 解决 问题 。 此 时 看 看 Scala 其 他 的 书 会 对 你 的 开 
发 有 所 帮助 ， 比 如 由 Deam Wampler 和 Alex Payne 所 著 的 《Scala 程序 设计 》'， 以 及 Alvin 
Alexander 所 著 的 Scala CookBook (这 两 本 书 的 英文 版 均 由 O'Reilly 出 版 社 出 版 )。 












































注 1: 该 书 第 2 版 已 经 由 人 民 邮 电 出 版 社 出 版 ， 书 号 9787115416810。 一 一 编者 注 
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第 3 章 


音乐 推荐 和 Audioscrobbler 数 据 集 





偏好 是 无 法 度量 的 。 
一 一 佚名 


经 党 有 人 问 起 我 的 职业 。“ 数 据 科 学 ”或 “机 器 学 习 ” 固 然 听 起 来 很 高 端 ， 但 常常 把 对 方 
搞 得 一 头 筋 水 。 发 生 这 种 情况 很 正常 ， 即 使 数据 科学 家 自己 也 很 难 把 数据 科学 说 清楚 。 数 
据 科学 就 是 存储 大 量 数据 ， 对 数据 进行 计算 ,然后 进行 预测 吗 ? 通常 这 时 我 会 直接 举 个 例 
子 来 帮助 提问 者 搞 清 楚 我 到 底 是 做 什么 的 :“ 嗯 ， 你 在 亚马逊 网 站 买 了 书 以 后 ， 它 会 向 你 
推荐 类 似 的 书 ， 对 吗 ? 对 ， 就 是 这 个 意思 ， 其 实 它 就 用 到 了 数据 科学 ! ” 




















从 经 验 上 来 讲 ， 推 荐 引擎 大 体 上 属于 大 规模 机 器 学 习 。 大 家 对 此 都 了 解 ， 而 且 大 部 分 人 在 亚 马 
进 上 都 见 过 。 从 社交 网 络 到 视频 网 站 ， 再 到 在 线 零 售 ， 都 用 到 了 推荐 引擎 ， 大 家 也 都 知道 推 
存 引擎 。 实 际 应 用 中 的 推荐 引擎 我 们 也 能 直接 看 到 。 虽 然 我 们 知道 Spotify 上 是 计算 机 在 挑 
选 播放 的 歌曲 ， 但 我 们 可 不 一 定 知道 Gmail 系统 可 以 判断 收 件 箱 里 的 邮件 是 不 是 垃圾 邮件 。 














相 比 其 他 的 机 器 学 习 算 法 ， 推 荐 引擎 的 输出 更 直观 ， 更 容易 理解 。 有 时 这 甚至 会 让 人 很 激 
动 。 尽 管 我 们 认为 每 个 人 的 音乐 喜好 都 非常 个 性 化 ， 并 且 也 很 难 解 释 这 种 现象 ， 但 是 推荐 
引擎 却 很 擅长 推荐 一 些 让 人 喜爱 的 歌曲 ， 这 些 歌曲 连 我 们 自己 都 不 知道 会 喜欢 。 




















最 后 ， 在 推荐 引擎 应 用 比较 广泛 的 领域 ， 比 如 音乐 和 电影 ， 要 解释 为 什么 推荐 的 音乐 和 一 
个 人 以 前 听 过 的 音乐 相 吻 合 ， 这 是 相对 比较 容易 的 。 但 对 某 些 聚 类 和 分 类 算法 来 说 ， 情 况 
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就 不 是 这 样 了 。 比 如 ， 支 持 向 量 机 分 类 器 其 实 就 是 一 组 系数 ， 用 这 个 分 类 器 进行 预测 时 ， 
即使 是 业内 人 士 ， 也 很 难 解释 这 些 系数 的 意义 。 








现在 该 开始 介绍 接 下 来 的 3 章 了 ， 这 3 章 讲 述 Spark 中 主要 的 机 器 学 习 算法 。 其 中 一 章 围 
绕 推 荐 引 警 展开 ， 主 要 介绍 音乐 推荐 。 在 随后 的 章节 中 我 们 先 介绍 Spark 和 MLlib 的 实际 
应 用 ， 接 着 介绍 一 些 机 器 学 习 的 基本 思想 ， 这 样 的 阐述 方式 读者 接受 起 来 比较 容易 。 


3.1 数据 集 

本 章 示 例 使 用 Audioscrobbler 公开 发 布 的 一 个 数据 集 。Audioscrobbler 是 last.fm 的 第 
一 个 音乐 推荐 系统 。last.fm 创建 于 2002 年， 是 最 早 的 互联 网 流 媒 体 广 播 站 点 之 一 。 
Audioscrobbler 提供 了 开放 的 “scrobbling”API, “scrobbling” 可 以 记录 听众 播放 过 哪些 艺 
术 家 的 歌曲 。lastfm (https:/www.last.fm/) 使 用 这 些 音 乐 播放 记录 构建 了 一 个 强大 的 音乐 
推荐 引擎 。 由 于 第 三 方 应 用 和 网 站 可 以 把 音乐 播放 数据 反馈 给 这 个 推荐 引擎 ， 这 个 推荐 引 
擎 系统 覆盖 了 数 百 万 的 用 户 。 


在 last.fm 的 年 代 ， 推 荐 引擎 方面 的 研究 大 多 局 限于 评分 类 数据 。 换 名 话说 ， 人 们 常常 把 推 
荐 引擎 看 成 处 理 “Bob 给 Prince 的 评价 是 3 星 半 ”这 类 输入 数据 的 工具 。 


Audioscrobbler 数据 集 有 些 特别 ， 因 为 它 只 记录 了 播放 数据 ， 如 “Bob 播放 了 一 首 Prince 
的 歌曲 ”。 播 放 记 录 所 包含 的 信息 比 评分 要 少 。 仅 仅 赁 Bob 播放 过 某 歌 曲 这 一 信息 并 不 能 
说 明 他 真 的 喜欢 这 首 歌 。 有 时 候 我 们 会 随便 打开 一 首 歌 ， 其 至 是 整 张 专辑 ， 然 后 就 离开 了 
房间 ， 可 能 都 不 关心 歌 到 底 是 谁 唱 的 。 
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然而 ， 人 们 虽然 经 常 听 音 乐 ， 但 很 少 给 音乐 评分 。 因 此 Audioscrobbler 数据 集 要 大 得 多 ， 
它 覆 盖 了 更 多 的 用 户 和 艺术 家 ， 也 包含 了 更 多 的 总 体 信息 ， 虽 然 单条 记录 的 信息 比较 少 。 
这 种 类 型 的 数据 通常 被 称 为 隐 式 反馈 数据 ， 因 为 用 户 和 艺术 家 的 关系 是 通过 其 他 行动 隐 含 
体现 出 来 的 ， 而 不 是 通过 显 式 的 评分 或 点 赞 得 到 的 。 


2005 年 lastfm 发 布 了 该 数据 集 的 一 个 版 本 ， 读 者 可 以 在 网 上 下 载 到 压缩 的 归档 文件 
(http://www-etud.iro.umontreal.ca/~bergstrj/audioscrobbler_data.htm!l) 1!。 下 载 归 档 文 件 后 ,你 会 
发 现 里 面 有 儿 个 文件 。 主 要 的 数据 集 在 文件 user_artist_data.txt 中 ， 它 包含 141 000 个 用 户 和 
160 万 个 艺术 家 ， 记 录 了 约 2420 万 条 用 户 播放 艺术 家 歌曲 的 信息 ， 其 中 包括 播放 次 数 信息 。 


数据 集 在 artist_data.txt 文件 中 给 出 了 每 个 艺术 家 的 ID 和 对 应 的 名 字 。 请 注意 ， 记 录 播 放 
信息 时 ， 客 户 端 应 用 提交 的 是 艺术 家 的 名 字 。 名 字 如 果 有 拼写 错误 ， 或 使 用 了 非 标准 的 名 
尔 ， 事 后 才能 被 发 现 。 比 如 ,，“The Smiths” “Smiths, The” 和 “the smiths” 看 似 代表 不 同 


















































注 1: 若 此 链接 无 法 下 载 ， 请 访问 http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005 .tar.gz。 
译 者 注 
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艺术 家 的 ID， 但 它们 其 实 明 显 是 指 同 一 个 艺术 家 。 因 此 ， 为 了 将 拼写 错误 的 艺术 家 ID 或 
ID 变 体 对 应 到 该 艺术 家 的 规范 ID ， 数 据 集 提 供 了 artist_alias.txt 文件 。 


3.2 ， 交 共 最 小 二 乘 推荐 算法 

现在 我 们 要 给 这 个 隐 式 反馈 数据 选择 一 个 合适 的 推荐 算法 。 这 个 数据 集 只 记录 了 用 户 和 歌 
曲 之 间 的 交互 情况 。 除 了 艺术 家 名 字 外 ， 数 据 集 没有 包含 用 户 的 信息 ， 也 没有 提供 歌手 的 
其 他 任何 信息 。 我 们 要 找 的 学 习 算 法 不 需要 用 户 和 艺术 家 的 属性 信息 。 这 类 算法 通常 称 为 
协同 过 滤 算 法 (https://en.wikipedia.org/wiki/Collaborative_filtering)。 举 个 例子 ， 根 据 两 个 
用 户 的 年 龄 相同 来 判断 他 们 可 能 有 相似 的 偏好 ， 这 不 叫 协同 过 滤 。 相 反 ， 根 据 两 个 用 户 播 
放 过 许多 相同 歌曲 来 判断 他 们 可 能 都 喜欢 某 首 歌 ， 这 才 叫 协同 过 滤 。 


Audioscrobbler 数据 集 包含 了 数 千 万 条 某 个 用 户 播 放 了 某 个 艺术 家 歌曲 次 数 的 信息 ， 看 起 
来 是 很 大 。 但 从 另 一 方面 来 看 数据 集 又 很 小 而 且 不 充足 ， 因 为 数据 集 是 稀疏 的 。 虽 然 数据 
集 覆 盖 160 万 个 艺术 家 ， 但 平均 来 算 ， 每 个 用 户 只 播放 了 大 约 171 个 艺术 家 的 歌曲 。 有 的 
用 户 只 播放 过 一 个 艺术 家 的 歌曲 。 对 这 类 用 户 ， 我 们 也 希望 算法 能 给 出 像样 的 推荐 。 毕 竞 
每 个 用 户 在 某 个 时 刻 只 能 播放 一 首 歌 曲 。 


最 后 ， 我 们 希望 算法 的 扩展 性 好 ， 不 但 能 用 于 构建 大 型 模型 ， 而 且 推 荐 速度 快 。 我 们 通常 
都 要 求 推荐 是 接近 实时 的 ， 也 就 是 在 一 秒 内 给 出 推荐 ， 而 不 是 要 等 一 天 。 

















































































































本 实例 将 用 到 潜在 因素 (https://en.wikipedia.org/wiki/Factor_analysis) 模型 中 的 一 种 模型 ， 
这 类 模型 涉及 的 范围 很 广泛 。 潜 在 因素 模型 试图 通过 数量 相对 少 的 未 被 观察 到 的 底层 原 
因 ， 来 解释 大 量 用 户 和 产品 之 间 可 观察 到 的 交互 。 打 个 比方 : 有 几 千 个 专辑 可 选 ， 为 什么 
数 百 万 人 偏偏 只 买 其 中 某 些 专辑 ?” 可 以 用 对 类 别 ( 可 能 只 有 数 十 种 ) 的 偏好 来 解释 用 户 和 
专辑 的 关系 ， 其 中 偏好 信息 并 不 能 直接 观察 到 ， 而 数据 也 没有 给 出 这 些 信 息 。 


比如 说 ， 有 一 位 客户 购买 了 重金 属 乐队 Megadeth 和 Pantera 的 专辑 ， 同 时 还 购买 了 古典 音 
乐 家 莫扎特 的 专辑 。 很 难 解释 为 什么 该 客户 只 购买 这 些 专 辑 ， 而 没有 买 其 他 的 。 然 而 这 也 
可 能 只 是 冰山 一 角 ， 也 许 该 客户 喜欢 的 风格 很 广泛 一 一 从 重金 属 到 前 卫 摇 深 ， 再 到 古典 音 
乐 。 这 种 解释 更 简单 ， 而 且 这 样 解释 比较 有 利 的 一 点 是 ， 客 户 可 能 对 其 他 类 型 的 专辑 也 感 
兴趣 。 在 这 个 例子 中 ,“ 喜 欢 重金 属 、 前 卫 摇 滚 和 古典 音乐 ”这 3 个 潜在 因素 可 以 解释 数 
以 万 计 的 人 对 专辑 的 偏好 。 
























































说 得 更 明确 一 些 ， 本 实例 用 的 是 一 种 矩阵 分 解 模型 (https://en.wikipedia.org/wiki/Non- 
negative_matrix_factorization) 。 数 学 上 ， 这 些 算法 把 用 户 和 产品 数据 当成 一 个 大 算 了 泗 4， 甜 
阵 第 i 行 和 第 j 列 上 的 元 素 有 值 ， 代 表 用 户 i 播放 过 艺术 家 jj 的 音乐 。 和 矩阵 4 是 稀 玻 的 : 4 
中 大 多 数 元 素 都 是 0， 因为 相对 于 所 有 可 能 的 用 户 - 艺术 家 组 合 ， 只 有 很 少 一 部 分 组 合 会 
出 现在 数据 中 。 算 法 将 4 分 解 为 两 个 小 抢 阵 X 和 了 的 乘积 。 和 天 阵 并 和 犯 阵 了 非常 “ 瘦 ， 
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因为 4 有 很 多 行 和 列 ， 但 对 和 了 的 行 很 多 而 列 很 少 ( 列 数 用 表示 )。 这 个 列 就 是 潜在 
因素 ， 用 于 解释 数据 中 的 交互 关系 。 


由 于 大 的 值 小 ， 甜 阵 分 解 算法 只 能 是 某 种 近似 ， 如 图 3-1 所 示 。 
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3-1: 矩阵 分 解 


矩阵 分 解 算法 有 时 称 为 矩阵 补 全 (matrix completion) 算法 ， 因 为 原始 和 矩阵 4 可 能 非常 稀 
玻 ， 但 乘积 X7- 是 稠密 的 ， 即 使 该 矩阵 存在 非 零 元 素 ， 非 零 元 素 的 数量 也 非常 少 。 因 此 模 
型 只 是 对 4 的 一 种 近似 。 原 始 4 中 大 量 元 素 是 缺失 的 〈 元 素 值 为 0) ， 算 法 为 这 些 缺 失 元 
素 生 成 ( 补 全 ) 了 一 个 值 ， 从 这 个 角度 讲 ， 我 们 可 以 把 算法 称 为 模型 。 


亚运 的 是 ， 本 例 中 的 线性 代数 和 我 们 的 直觉 很 好 地 对 应 起 来 了 。 这 种 对 应 关系 在 这 里 是 直接 
的 ， 也 是 优雅 的 。 两 个 矩阵 分 别 有 一 行 对 应 每 个 用 户 和 每 个 艺术 家 。 每 行 的 值 很 少 ， 只 有 天 
个 。 每 个 值 代 表 了 对 应 模型 的 一 个 隐 含 特征 。 因 此 行 表 示 了 用 户 和 艺术 家 怎样 关联 到 这 个 
隐 含 特征 ， 而 隐 含 特征 可 能 就 对 应 偏好 或 类 别 。 于 是 问题 就 简化 为 用 户 - 特征 矩阵 和 特征 - 
艺术 家 和 矩阵 的 乘积 ， 该 乘积 的 结果 是 对 整个 稠密 的 用 户 - 艺术 家 相互 关系 矩阵 的 完整 估计 。 
该 乘积 可 以 理解 成 商品 与 其 属性 之 间 的 一 个 映射 ， 然 后 按 用 户 属性 进行 加 权 。 


不 幸 的 是 ，4 = XY 通常 根本 没有 确切 的 解 ， 原 因 就 是 蕊 和 了 通常 不 够 大 (严格 来 讲 就 是 
和 矩阵 的 阶 太 小 )， 无 法 完美 表示 4。 这 其 实 也 是 件 好事 。4 只 是 所 有 可 能 出 现 的 交互 关系 的 
一 个 微小 样本 。 在 某 种 程度 上 我 们 认为 4 是 对 基本 事实 的 一 次 观察 ， 它 太 稀 蓝 ， 因 此 很 难 
解释 这 个 基本 事实 。 但 用 少数 儿 个 因素 (k 个 ) 就 能 很 好 地 解释 这 个 基本 事实 。 想 象 一 下 
你 正在 玩 拼 图 游戏 ， 图 案 是 一 只 猫 。 游 戏 最 终 答案 很 简单 ， 就 是 一 只 猫 。 但 当 你 手头 上 只 
有 几 块 拼 板 时 ， 就 会 很 难 描述 眼前 看 到 的 图 案 。 

XY 应 该 尽 可 能 和 逼 近 4， 毕 竞 这 是 所 有 后 续 工 作 的 基础 ， 但 它 不 能 也 不 应 该 完全 复制 4。 
然而 同样 不 幸 的 是 ， 想 直接 同时 得 到 关 和 了 的 最 优 解 是 不 可 能 的 。 好 消息 是 ， 如 果 了 已 
知 ， 求 了 的 最 优 解 是 非常 容易 的 ， 反 之 亦 然 。 但 对 和 了 事先 都 是 未 知 的 。 
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幸好 有 算法 可 以 帮助 我 们 摆脱 这 种 两 难 的 境地 ， 并 且 能 找到 一 个 还 不 错 的 解决 方案 。 具 
体 来 说 ， 求 解 式 和 了 了 时， 本 章 使 用 交 检 最 小 二 乘 (Alternating Least Squares，ALS) 算 
法 。 这 类 方法 在 Netflix 竞赛 期 间 流 行 起 来 ， 对 此 一 些 论文 功 不 可 没 ， 比 如 “Collaborative 
Filtering for Implicit Feedback Datasets” 和 “Large-scale Parallel Collaborative Filtering for the 
Netflix Prize”。 实 际 上 Spark MLlib 的 ALS 算法 实现 思想 就 来 源 于 这 两 篇 论文 。 


虽然 了 是 未 知 的 ， 但 我 们 可 以 把 它 初始 化 为 随机 行 向 量 矩 阵 。 接 着 运用 简单 的 线性 代数 ， 
就 能 在 给 定 4 和 了 的 条 件 下 求 出 的 最 优 解 。 实 际 上 , 的 第 i 行 是 4 的 第 i 行 和 了 的 函 
数 ， 因 此 可 以 很 容易 分 开 计 算 X 的 每 一 行 。 因 为 的 每 一 行 可 以 分 开 计 算 ， 所 以 我 们 可 以 
将 甚 并行 化 ， 而 并 行 化 是 大 规模 计算 的 一 大 优点 。 


























AY(Y'Y)" =X 


要 想 两 边 精确 相等 是 不 可 能 的 ， 因 此 实际 的 目标 是 最 小 化 |4,Y(Y 站 " - 区 ， 或 者 最 小 化 两 
个 矩阵 的 平方 误差 。 这 就 是 算法 名 称 中 “最 小 二 乘 ” 的 来 由 。 这 里 给 出 方程 式 只 是 为 了 
说 明 行 向 量 计算 方法 但 实践 中 从 来 不 会 对 和 矩阵 求 逆 ， 我 们 会 借助 于 QR 分 解 (https:/ 
en.wikipedia.org/wiki/QR_decomposition) 之 类 的 方法 ， 这 种 方法 速度 更 快 而 且 更 直接 。 


同 理 ， 我 们 可 以 由 总 计算 每 个 已 。 然 后 又 可 以 由 了 计算 X， 这 样 反复 下 去 。 这 就 是 算法 名 
称 中 “交替 ”的 来 由 。 这 里 有 一 个 小 问题 : 了 是 “ 频 编 ”的 ， 并 且 是 随机 的 。 式 是 最 优化 
计算 出 来 的 ， 这 没 错 ， 但 给 定 的 Y 却 是 “ 假 ”的 。 好 在 ， 只 要 这 个 过 程 一 直 继 续 , 和 了 
最 终 会 收敛 得 到 一 个 合适 的 结果 。 

















将 ALS 算法 用 于 隐 性 数据 矩阵 分 解 时 ，ALS 和 矩阵 分 解 要 稍微 复杂 一 点 儿 。 它 不 是 直接 分 
解答 入 矩阵 4， 而 是 分 解 由 0 和 1 组 成 的 矩阵 已 ， 当 4 中 元 素 为 正 时 ，P 中 对 应 元 素 为 1， 
否则 为 0。4 中 的 具体 值 后 面 会 以 权重 的 形式 反映 出 来 。 本 书 不 对 其 中 细 市 做 过 多 讨论 ， 
但 我 们 有 必要 知道 如 何 使 用 该 算法 。 


最 后 ，ALS 算法 也 可 以 利用 输入 数据 是 稀 玻 的 这 一 特点 。 稀 玻 的 输入 数据 、 可 以 用 简单 的 
线性 代数 运算 求 最 优 解 ， 以 及 数据 本 身 可 并 行 化 ， 这 3 点 使 得 算法 在 大 规模 数据 上 速度 非 
常 快 。 这 也 就 是 我 们 要 把 ALS 算法 作为 本 章 主 题 的 主要 原因 ， 同 时 也 解释 了 为 什么 到 目前 
为 止 Spark MLlib 只 有 ALS 一 种 推荐 算法 。 


3.3 准备 数据 

首先 ， 需 要 得 到 数据 集 的 文件 。 将 3 个 数据 文件 全 部 复制 到 HDEFS。 本 章 假 定 文件 放 在 
/user/ds/ 目录 下 ， 启 动 spark-sheLL。 注 意 本 章 的 运算 比 简单 的 应 用 要 占用 更 多 的 内 存 。 如 
果 运 行 在 本 地 而 不 是 在 集群 上 ， 为 了 保证 内 存 充 足 ， 在 启动 spark-shell 时 要 指定 参数 


--driver-memory 4g。 
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构建 模型 的 第 一 步 是 了 解数 据 ， 对 数据 进行 解析 或 转换 ， 以 便 在 Spark 中 做 分 析 。 


Spark MLlib 的 ALS 算法 实现 并 不 严格 要 求 用 户 和 产品 的 ID 必须 是 数值 型 ， 不 过 当 ID 为 
32 位 非 负 整数 时 ， 效 率 会 更 高 。 使 用 Int 表示 ID 是 有 好 处 的 ， 但 同时 意味 着 ID 不 能 超过 
Int 的 最 大 值 (Int.MaxValue)， 即 2147483647。 我 们 的 数据 集 是 否 已 经 满足 了 这 个 要 求 ? 

















利用 SparkSession 的 textFile 方法 ， 将 数据 文件 转换 成 St 


val rawUserArtistData = 














ring 类 型 的 数据 集 : 


spark.read.textFile("hdfs:///user/ds/user_artist data.txt") 


rawUserArtistData.take(5).foreach(println) 


1000002 1 55 
1000002 1000006 33 
1000002 1000007 8 
1000002 1000009 144 
1000002 1000010 314 


默认 情况 下 ， 该 数据 集 为 每 个 HDFS 块 生成 一 个 分 区 ， 将 HDFS 块 大 小 设 为 典型 的 128 MB 
或 64 MB。 由 于 HDFS 文件 大 小 为 400 MB ， 所 以 文件 被 拆 为 3 个 或 6 个 分 区 。 这 通常 没 





什么 问题 ， 但 由 于 相 比 简单 文本 处 理 ，ALS 这 类 机 器 学 习 算 法 要 消耗 更 多 的 计算 资源 ， 因 




















此 减 小 数据 块 大 小 以 增加 分 区 个 数 会 更 好 。 减 小 数据 块 大 小 能 使 Spark 处 理 任 务 时 同时 使 
用 的 处 理 器 核 数 更 多 ， 因 为 每 个 核 可 以 独立 处 理 一 个 分 区 数据 。 可 以 在 读 取 文 本 文件 以 
后 ， 接 着 调用 一 个 .repartition(n) 来 指定 一 个 不 同 于 默认 值 的 分 区 数 ， 这 样 就 可 以 将 分 








区 数 设 得 大 一 些 。 比 如 ， 可 以 基 虑 将 这 个 参数 设 为 集群 处 理 





文件 的 每 行 包 含 一 个 用 户 ID、 一 个 艺术 家 ID 和 播放 次 数 








器 总 核 数 。 


， 用 空格 分 隔 。 要 计算 用 户 ID 








的 统计 信息 ， 可 以 用 空格 拆 分 每 行 ， 并 将 前 两 个 值 解析 为 整数 ， 其 结果 在 概念 上 可 以 看 成 
Int 类 型 的 两 个 列 : 用 户 ID 和 艺术 家 ID。 将 其 转换 为 包含 列 user 和 artist 的 DataFrame 
是 有 意义 的 ， 因 为 这 样 就 可 以 简单 地 计算 出 两 列 的 最 大 值 和 最 小 值 : 























val userArtistDF = rawUserArtistData.map { line => 
val Array(user, artist, *) = line.split(' ') @ 
(user.toInNnt, artist.toInt) 

}.toDF("user", "artist") 


userArtistDF .agg( 





min("user"), max("user"), min("artist"), max("artist")).show() 


+--------- +--------- +---------- +---- + 


Imin(user)|max(user)|min(artist)|max(artist)| 
+--------- +--------- +----------- +----------- 十 
| 90| 2443548| 1| 10794401| 
+--------- +--------- +----------- +----------- 十 








@ 匹配 并 去 掉 剩 余 的 标记 。 





最 大 的 用 户 ID 和 艺术 家 ID 分 别 是 2443548 和 10794401， 而 它们 的 最 小 值 分 别 是 90 和 1， 
并 没有 出 现 负 值 。 这 些 远 比 2147483647 要 小 ， 所 以 在 使 用 这 些 ID 之 前 ， 没 有 必要 进行 额 
外 的 转换 。 
在 这 个 例子 后 面 的 部 分 中 ， 将 会 用 到 难以 分 辨 的 数字 ID 所 对 应 的 艺术 家 的 名 字 ， 这 些 信 
息 存 储 在 artist_data.txt 中 。 现 在 这 个 文件 中 包含 了 用 制 表 符 分 割 的 艺术 家 ID 和 艺术 家 的 
名 字 。 但 是 简单 地 把 文件 解析 成 二 元 组 (Int,String) 将 会 出 错 : 



























































val rawArtistData = spark.read.textFile("hdfs:///user/ds/artist_data.txt") 


rawArtistData.map { line => 


val (id, name) = line.span(_ != '\t') © 
(id.toInNnt, name.trim) 
}.count() @ 


java. lang.NumberFormatException: For input string: "Aya Hisakawa" 








@ 用 第 一 个 制 表 符 分 割 行 。 
@ 使 用 .count 触发 解析 ， 这 里 会 出 错 ! 








这 里 span() 用 第 一 个 制 表 符 将 一 行 拆 分 成 两 部 分 ， 接 着 将 第 一 部 分 解析 为 艺术 家 ID， 剩 
余部 分 作为 艺术 家 的 名 字 (去 掉 了 空白 的 制 表 符 )。 文 件 里 有 少量 行 看 起 来 是 非法 的 ， 有 
些 行 没 有 制 表 符 ， 有 些 行 不 小 心 加 入 了 换行 符 。 这 些 行 会 导致 NumberFormatException， 它 
们 不 应 该 有 输出 结果 。 





然而 ，map() 函数 要 求 对 每 个 输入 必须 严格 返回 一 个 值 ， 因 此 这 里 不 能 用 这 个 函数 。 另 一 
种 可 行 的 方法 是 用 fitLter() 方法 删除 那些 无 法 解析 的 行 ， 但 这 会 重复 解析 逻辑 。 当 需要 将 
每 个 元 素 映射 为 零 个 、 一 个 或 更 多 结果 时 ， 我 们 应 该 使 用 flatMap() 函数 ， 因 为 它 将 每 个 
输入 对 应 的 零 个 或 多 个 结果 组 成 的 集合 简单 展开 ， 然 后 放 和 到 一 个 更 大 的 数据 集中 。 它 可 
以 和 Scala 集合 一 起 使 用 ， 也 可 以 和 Scala 的 0ption 类 一 起 使 用 。option 代表 一 个 值 可 以 
不 存在 ， 有 点 儿 像 只 有 1 或 0 的 一 个 简单 集合 ，1 对 应 子 类 Some，0 对 应 子 类 None。 因 此 
在 以 下 代码 中 ， 虽 然 flatMap 中 的 函数 本 可 以 简单 返回 一 个 空 List， 或 一 个 只 有 一 个 元 素 
的 Ltst， 但 使 用 Some 和 None 更 合理 ， 这 种 方法 简单 明了 。 



































val artistByID = rawArtistData.flatMap { line => 

val (id, name) = line.span(_ != '\t') 
if (name.isEmpty) { 

None 
} else { 

try { 

Some((id.toInt，name.trim)) 
} catch { 
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Case _: NumberFormatException => None 


和 


}.toDF("id", "name" 


这 里 返回 一 个 DataFrame， 艺 术 家 ID 和 名 字 分 别 对 应 列 “id” 和 “name”。 


artist_alias.txt 将 拼写 错误 的 艺术 家 ID 或 非 标准 的 艺术 家 ID 映射 为 艺术 家 的 正规 名 字 。 甚 








中 每 行 有 两 个 ID， 用 制 表 符 分 隔 
成 Map 集合 的 形式 ， 将 “不 良 的 ” 


。 这 个 文件 相对 较 小 ， 有 200 000 个 记录 。 有 必要 把 它 转 
”艺术 家 ID 映射 到 “良好 的 ”ID， 而 不 是 简单 地 把 它 作 








为 包含 艺术 家 ID 二 元 组 的 数据 集 。 这 里 又 有 一 点 小 问题 : 由 于 某 种 原因 有 些 行 没有 艺术 
家 的 第 一 个 ID。 这些 行 将 被 过 滤 掉 : 








val rawArtistAlias = spark.read.textFile("hdfs:///user/ds/artist alias.txt") 
val artistAlias = rawArtistAlias.flatMap { line => 
val Array(artist, alias) = line.split('\t') 


if (artist.isEmpty) { 
None 
} else { 


Some((artist.toInt，aLias.toInt)) 


} 
}.collect().toMap 
artistAlias.head 


(1208690 ,1003926) 





比如 ， 第 一 条 将 ID 1208690 映射 为 1003926。 接 下 来 我 们 可 以 从 包含 艺术 家 名 字 的 数据 集 


中 进行 查找 : 


artistByID.filter($"id" isin (1208690, 1003926)).show() 


+------- +---------------- + 
|1208690|Collective Souls| 
|1003926| Collective Soul| 
+------- +---------------- + 





显然 ， 这 条 记录 将 “Collective Souls” 了 映射 为 “Collective Soul”。 后 者 才 是 这 支 乐队 正确 的 


名 称 。 


3.4 构建 第 一 个 模型 


虽然 现在 数据 集 的 形式 完全 符合 


Spark MLlib 的 ALS 算法 实现 的 要 求 ， 但 我 们 还 需要 一 个 





额外 的 转换 。 如 果 艺 术 家 ID 存在 








E 一 个 不 同 的 正规 ID， 我 们 要 用 别名 数据 集 将 所 有 的 艺术 





家 ID 转换 成 正规 站。 除 此 之 外 ， 只 需要 将 输入 的 行 解析 成 合适 的 列 。 可 以 定义 一 个 辅助 


函数 来 做 这 件 事情 ， 以 后 还 能 重用 它 。 


import org.apache.spark.sql._ 
import org.apache.spark.broadcast._ 


def buildCounts( 
rawUserArtistData: Dataset[String], 


bArtistAlias: Broadcast[Map[Int,Int]]): DataFrame = { 


rawUserArtistData.map { line => 


val Array(userID, artistID, count) = line.split(' ').map(_.toInt) 


val finalArtistID = 


bArtistAlias.value.getOrElse(artistID, artistID) @ 


(userID, finalArtistID, count) 
}.toDF("user", "artist", "count") 


} 


val bArtistAlias = spark.sparkContext.broadcast(artistAlias) 


val trainData = buildCounts(rawUserArtistData, bArtistAlias) 


trainData.cache() 


@ 如 果 艺 术 家 存在 别名 ， 取 得 艺术 家 别名 ， 否 则 取得 原始 名 字 。 


虽然 刚 创 建 的 artistAlias 是 驱动 程序 本 地 的 一 个 Map， 我 们 仍然 可 以 在 map() 函数 中 直 





接 引 用 它 。 这 是 没 问 题 的 ， 因 为 artistAlias 会 随 任务 一 起 被 


自动 复制 。 但 是 ， 它 的 体 量 





可 不 小 ， 要 消耗 大 约 15 MB 内 存 ， 哪 怕 是 序列 化 形式 最 少 也 得 占用 几 兆 字 节 。 因 为 一 个 


JVM 中 有 许多 任务 ， 所 以 发 送 和 存储 如 此 多 的 副本 太 浪 费 了 。 





这 时 ， 我 们 可 以 为 artistALias 创建 一 个 广播 变量 ， 取 名 为 bArtistAlias。 使 用 广播 变量 








时 ，Spark 对 集群 中 每 个 executor 只 发 送 一 个 副本 ， 并 且 在 内 存 里 也 只 保存 一 个 副本 。 如 
果 有 几 千 个 任务 在 executor 上 并 行 执行 ， 使 用 广播 变量 能 节省 巨大 的 网 络 流量 和 内 存 。 





广播 变量 





Spark 执行 一 个 阶段 (stage) 时 ， 会 为 待 执行 函数 建立 闭 包 ， 也 就 是 该 阶段 所 有 任务 
所 需 信 息 的 二 进 制 形式 。 这 个 闭 包 包括 驱动 程序 里 函数 引用 的 所 有 数据 结构 。Spark 把 
这 个 闭 包 发 送 到 集群 的 每 个 executor 上 。 

当 许 多 任务 需要 访问 同一 个 (不 可 变 的 ) 数据 结构 时 ， 我 们 应 该 使 用 广播 变量 。 它 对 
任务 闭 包 的 常规 处 理 进行 扩展 ， 使 我 们 能 够 : 

。 在 每 个 executor 上 将 数据 缓存 为 原始 的 Java 对 象 ， 这 样 就 不 用 为 每 个 任务 执行 反 序 
列 化 ; 

。 在 多 个 作业 、 阶 段 和 任务 之 间 缓 存 数 据 。 
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举 个 例子 ， 考 虑 自然 语言 处 理应 用 的 场景 ， 这 里 需要 用 到 一 本 大 型 英语 单词 词典 ， 
以 及 一 个 接受 一 行 字符 和 单词 词典 作为 输入 的 评分 函数 。 广 播 词 典 意 味 着 对 每 个 
executor 只 要 执行 一 次 传输 数据 : 


val dict: Seq[String] = ... 
val bDict = spark.sparkContext.broadcast(dict) 


def query(path: String) = { 
spark.read.textFile(path).map(score(_, bDict.value)) 


i 


在 连接 一 张大 表 和 一 张 小 表 时 ，DataFrame 操作 有 时 也 会 自动 利用 广播 变量 ， 这 一 
点 超出 了 本 书 的 范围 。 在 某 些 时 候 ， 广 播 一 张 小 表 性 能 更 好 ， 这 称 为 广播 散 列 连接 
(broadcast hash join ) 。 























调用 cache() 以 指示 Spark 在 DataFrame 计算 好 之 后 将 其 暂时 存储 在 集群 的 内 存 里 。 这 样 
是 有 益 的 ， 因 为 ALS 算法 是 从 代 的 ， 通常 情况 下 至 少 要 访问 该 数据 10 次 以 上 。 如 果 不 调 
用 cache()， 那 么 每 次 要 用 到 DataFrame 时 都 需要 从 原始 数据 中 重新 计算 。 如 图 3-2 所 示 ， 
Spark UI 界面 的 Storage 标签 页 显示 了 有 和 多少 DataFrame 被 缓存 起 来 了 ， 占 用 了 多 少 内 存 。 
中 DataFrame 占用 了 集群 将 近 120 MB 的 内 存 。 


























Cached Fraction Size in Size on 
Storage Level Partitions Cached Memory Disk 
Memory Deserialized 1x 8 100% 120.3 MB 0.0B 


Replicated 











3-2: Spark Ul 的 Storage 标签 页 ， 显示 绥 存 DataFrame 内 存 使 用 情 ) 





注意 ， 上 面 的 UI 中 ，Deserialized 标签 实际 上 只 与 RDD 相关 ， 这 里 Serialized 意味 着 数据 
是 序列 化 成 字 节 的 形式 存储 在 内 存 中 的 ， 而 不 是 对 象 的 形式 。 但 是 ， 像 这 样 的 Dataset 和 
DataFrame 实例 ， 会 在 内 存 中 分 别 执行 它们 自己 “编码 ”的 公共 数据 类 型 。 








实际 上 ，120 MB 可 以 说 小 得 惊人 。 考 虑 到 这 里 存储 了 大 约 2400 万 条 播放 记录 ， 人 快速 粗略 
估计 一 下 可 以 发 现 ， 这 意味 着 每 个 user-artist-count 的 组 合 平均 仅 消 耗 了 5 字 节 。 然 而 ，3 
个 32 位 的 整 型 就 能 消耗 12 字 节 。 这 是 DataFrame 的 优点 之 一 。 因 为 存储 的 数据 类 型 是 原 
始 的 32 位 整 型 ， 所 以 能 在 内 存 中 内 部 优化 数据 的 表示 方法 。 如 果 换 成 原始 基于 RDD API 
的 ALS， 要 存储 2400 万 个 Rating 对 象 ，RDD 占用 内 存 将 超过 900 MB。 




















最 后 ， 我 们 构建 模型 : 


import org.apache.spark.ml.recommendation._ 
import scala.util.Random 
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val model = new ALS() . 
setSeed(Randonm.nextLong()). © 
setImplicitprefs(true). 
setRank(10). 
setRegParam(0.01). 
setAlpha(1.0). 
setMaxIter(5). 
setUserCol("user"). 
setItemCol("artist"). 
setRatingCol("count"). 
setPpredictionCol("prediction"). 
fit(trainData) 


@ 使 用 随机 种 子 。 


这 样 我 们 就 构建 了 一 个 带 有 上 默认 配置 的 ALSModel 模型 。 这 个 操作 可 能 要 花费 几 分 钟 或 者 
更 长 时 间 ， 具 体 时 间 取 决 于 所 用 的 集群 。 有 些 机 器 学 习 模 型 最 终 可 能 只 有 几 个 参数 或 系 
数 ， 相 比 之 下 ， 我 们 这 里 使 用 的 模型 是 巨大 的 。 对 于 每 个 用 户 和 产品 ， 模 型 都 包含 一 个 有 
10 个 值 的 特征 向 量 。 在 本 章 的 示例 中 ， 总 共有 超过 170 万 个 特征 向 量 。 模 型 用 两 个 不 同 的 
DataFrame， 它 们 分 别 表 示 “ 用 户 - 特征 ”和 “产品 -特征 ”这 两 个 大 型 矩阵 。 
































你 看 到 的 结果 会 有 些 不 同 ， 原 因 是 最 终 的 模型 取决 于 初始 特征 向 量 ， 而 这 些 初始 特征 向 量 
是 随机 选择 的 。 然 而 ，MLlib 的 ALS 模型 和 其 他 组 件 默 认 设置 了 固定 的 随机 种 子 ， 每 次 都 
会 做 出 相同 的 随机 选择 。 这 一 点 和 其 他 库 不 一 样 ， 在 默认 情况 下 ， 一般 库 的 随机 元 素 通常 
不 是 固定 的 。 所 以 ， 在 这 里 和 以 后 使 用 MLlib 时 ， 需 要 使 用 setSeed(Random.nextLong()) 
设置 一 个 真正 的 随机 种 子 。 


















































想 看 看 某 些 特征 向 量 ， 试 试 以 下 代码 。 它 只 显示 一 行 ， 并 且 不 截断 特征 向 量 显 示 宽 度 : 








model.userFactors.show(1, truncate = false) 


4+- 和 
lid |features Pe 
4- i 
190 |[-0.2738046, 0.03154172, 1.046261, -0.52314466，,，... 
+ ls 





ALS 中 的 其 他 方法 ， 如 setAlpha,， 会 设置 超 参 数 ， 它 们 的 值 将 影响 模型 的 推荐 质量 ， 我 们 
稍 后 再 详细 解释 。 更 重要 的 是 ， 首 先 要 问 : 模型 质量 怎样 ? 模型 能 给 出 好 的 推荐 吗 ? 
3.5 “逐个 检查 推荐 结果 


应 该 看 看 模型 给 出 的 艺术 家 推荐 直观 上 是 否 合理 ， 我 们 检查 一 下 用 户 播放 过 的 艺术 家 ， 然 
后 看 看 模型 向 用 户 推荐 的 艺术 家 。 上 有 具体 来 看 看 用 户 2093760 的 例子 。 首 先 ， 我 们 观察 他 / 
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她 的 播放 记录 来 了 解 其 品味 。 现 在 我 们 要 提取 该 用 户 收 听 过 的 艺术 家 ID 并 打印 他 们 的 名 
字 ， 这 意味 着 先 在 输入 数据 中 搜索 该 用 户 收听 过 的 艺术 家 的 ID， 然 后 用 这 些 ID 对 艺术 家 
集合 进行 过 滤 ， 这 样 我 们 就 可 以 获取 并 按 序 打印 这 些 艺 术 家 的 名 字 : 











val userID = 2093760 

val existingArtistIDs = trainData. 
filter($"user" === userID). © 
select("artist").as[Int].collect() @ 


artistByID.filter($"id" isin (existingArtistIDs: *)).show() © 


+------- +--------------- 十 
| id| name | 
+------- +--------------- 十 
| 1180| David Gray| 
| 378| Blackalicious| 
| 813| Jurassic 5| 
|1255340|The Saw Doctors| 
| 942| Xzibit| 
+------- +--------------- + 





@ 找到 用 户 2093760 对 应 的 行 。 
@ 收集 艺术 家 ID 的 整 型 集合 。 
日 过 滤 艺 术 家 ，:_* 变 长 参数 语法 。 


用 户 播放 过 的 艺术 家 既 有 大 众 流行 音乐 风格 的 也 有 嘻哈 风格 的 。 难 道 用 户 是 Jurassic 5 乐 
队 的 粉丝 ?” 记 住 这 是 2005 年 。 顺 便 解 释 一 下 : Saw Doctors 是 一 支 典 型 爱尔兰 风格 的 摇滚 
乐 了 从， 在 爱尔兰 非常 受 欢迎 。 


不 好 的 方面 是 ，ALS 模型 竟然 没有 提供 直接 计算 用 户 最 佳 推荐 的 方法 。 用 户 最 佳 推荐 的 目 
的 是 评估 用 户 对 任意 给 定 艺术 家 的 偏好 。Spark 2.2 加 入 了 一 个 recommendAll 方法 来 解决 这 
个 问题 ,但 是 在 撰写 本 文 的 时 候 Se 2.2 还 没有 发 布 。recommendAll 方法 可 以 用 来 给 所 有 
的 艺术 家 打分 ， 然 后 返回 其 中 分 值 最 














def makeRecommendations( 
model: ALSModel, 
userID: Int, 
howMany: Int): DataFrame = { 


val toRecommend = model.itemFactors. 
select($"id".as("artist")). 
withColumn("user", lit(userID)) © 





注 2: Spark 2.2 已 于 2017 年 7 月 11 日 正式 发 布 。 一 一 译 者 注 











modeL.transform(toRecommend ) . 
select("artist", "prediction"). 
orderBy($"prediction".desc). 
limit(howMany) @ 

} 


@ 选择 所 有 艺术 家 ID 与 对 应 的 目标 用 户 ID。 

@ 对 所 有 艺术 家 评分 ， 并 返回 其 中 分 值 最 高 的 。 

请 注意 ， 此 方法 不 必 过 涯 用 户 已 经 听 过 的 艺术 家 的 ID。 虽然 这 是 很 常见 的 需求 ， 但 并 不 是 
必需 的 ， 因 为 不 过 小 也 不 会 影响 我 们 最 终 的 目标 。 

现在 ， 做 出 推荐 就 很 简单 了 ， 虽 然 采用 这 种 方式 计算 它们 需要 一 些 时 间 。 因 此 ， 它 适用 于 
批量 评分 ， 而 不 适用 于 实时 评分 。 


val topRecommendations = makeRecommendations(model, userID, 5) 
topRecommendations. show() 























+------- +----------- + 
| artist| prediction| 
+------- +----------- + 
| 2814|0.030201003| 
1130064210.029290354| 
|1001819|0.029130368| 
|1007614|0.028773561 | 
|1037970|0.028646756| 
+------- +----------- 十 





结果 包含 了 一 个 艺术 家 ID 和 一 个 “预测 ”。 虽 然 字 段 名 称 叫 rating， 但 其 实 不 是 估计 的 得 
分 。 对 这 类 ALS 算法 ， 预 测 是 一 个 0~1 的 模糊 值 ， 值 越 大 ， 推 荐 质量 越 好 。 它 不 是 概率 ， 
但 可 以 把 它 理解 成 对 0/1 值 的 一 个 估计 ，0 表示 用 户 不 喜欢 播放 艺术 家 的 歌曲 ，1 表示 喜欢 
播放 艺术 家 的 歌 


得 到 所 推荐 艺术 家 的 ID 之 后 ， 就 可 以 用 类 似 的 方法 查 到 艺术 家 的 名 字 : 


val recommendedArtistIDs = 
topRecommendations.select("artist").as[Int].collect() 






























































o 








artistByID.filter($"id" isin (recommendedArtistIDs: _*)).show() 


+------- +---------- + 
| id| name | 
+------- +---------- + 
| 2814| 50 Cent| 
|1007614| Jay-Z| 
|1037970|Kanye West| 
|1001819| 2Pac | 
11300642| The Game| 
+------- +---------- + 
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结果 全 部 是 喀 哈 风格 。 我 们 一 上 腿 就 能 看 出 ， 这 些 推荐 都 不 怎么 样 。 虽 然 推荐 的 艺术 家 都 受 
人 欢迎 ， 但 好 像 并 没有 针对 用 户 的 收听 习惯 进行 个 性 化 。 


MT 和 JE 
3.6 ”评价 推荐 质量 
当然 ， 刚 才 只 是 对 一 个 用 户 的 推荐 结果 的 一 次 主观 评价 。 除 了 用 户 本 人 ， 其 他 任何 人 都 很 
难 对 推荐 的 好 坏 给 出 定量 描述 。 而 且 ， 想 对 推荐 结果 做 人 工 评分 ， 哪 怕 只 评价 一 小 部 分 结 
果 ， 也 是 不 切实 际 的 。 


我 们 假定 用 户 会 倾向 于 播放 受 人 欢迎 的 艺术 家 的 歌曲 ， 而 不 会 播放 不 受 欢 迎 的 艺术 家 的 歌 
曲 ， 这 个 假设 是 合理 的 。 因 此 ， 用 户 的 播放 数据 在 一 定 程度 上 表示 了 “优秀 的 ”和 “糟糕 
的 ”艺术 家 推荐 。 这 个 假设 虽然 还 有 点 儿 问 题 ， 但 是 在 没有 其 他 数据 的 情况 下 ， 也 只 能 这 
么 做 了 。 比 如 ，170 万 个 艺术 家 ， 除 了 之 前 推荐 的 5 个 艺术 家 之 外 没有 播放 过 的 艺术 家 中 ， 
用 户 2093760 很 可 能 对 其 中 某 些 感 兴趣 ， 所 以 不 能 说 没有 听 过 的 艺术 家 都 是 “糟糕 的 ”， 
都 不 能 推荐 。 


如 果 根 据 好 艺术 家 在 推荐 列表 中 排名 应 该 靠 前 这 个 标准 来 评价 推荐 引擎 ， 情 况 会 怎样 ? 推 
存 引擎 这 类 的 评分 系统 有 几 个 指标 ， 这 个 指标 是 其 中 之 一 。 问 题 是 如 果 将 “好 ”的 标准 定 
义 为 “用 户 收听 过 艺术 家 "， 那 么 推荐 系统 在 输入 中 已 经 利用 了 这 些 信息 。 它 可 以 简单 把 
用 户 以 前 听 过 的 艺术 家 作为 最 靠 前 的 推荐 结果 返回 ， 而 这 样 就 能 得 到 最 高 的 评价 。 然 而 这 
是 无 益 的 ， 因 为 推荐 引擎 的 作用 在 于 向 用 户 推荐 他 从 来 没 听 过 的 艺术 家 。 






















































































为 了 使 推荐 变 得 有 用 ， 可 以 从 数据 集中 拿 出 一 些 艺 术 家 的 播放 数据 放 在 一 边 ， 在 整个 ALS 
模型 构建 过 程 中 并 不 使 用 这 些 数据 。 这 些 放 在 一 边 的 数据 中 的 艺术 家 可 以 作为 每 个 用 户 的 
优秀 推荐 ， 但 这 些 数 据 并 没有 胁 给 推荐 引 警 。 让 推荐 引擎 对 模型 中 所 有 的 产品 进行 评分 ， 
然后 对 比 检查 放 在 一 边 的 艺术 家 的 推荐 排名 情况 。 理 想 情 况 下 ， 推 荐 引擎 对 这 些 艺 术 家 的 
推荐 排名 应 该 最 靠 前 或 接近 最 靠 前 。 


接着 我 们 就 可 以 计算 推荐 引 警 的 得 分 ， 方 法 是 比较 放 在 一 边 的 艺术 家 推荐 排名 和 整个 数据 
集中 的 艺术 家 的 推荐 排名 〈 在 实践 中 ， 我 们 通常 只 比较 一 小 部 分 ， 因 为 需要 比较 的 艺术 家 
组 合 可 能 非常 多 )。 对 比 组 合 中 放 在 一 边 的 艺术 家 排名 高 的 组 合 所 占 比 例 就 是 模型 的 得 分 。 
1.0 代表 最 好 ，0.0 代表 最 差 ，0.5 是 随机 给 艺术 家 排名 的 模型 的 期 望 得 分 。 









































这 个 指标 和 一 个 信息 检索 概念 直接 相关 ， 这 个 概念 就 是 接受 者 操作 特征 (receiver operating 
characteristic, ROC, https://en.wikipedia.org/wiki/Receiver_operating_characteristic) 曲 线 。 
上 一 段 中 的 指标 等 于 ROC 曲线 下 区 域 的 面积 ， 称 为 AUC (Area Under the Curve)。 可 以 把 
AUC 看 成 是 随机 选择 的 好 推荐 比 随 机 选择 的 差 推荐 的 排名 高 的 概率 。 



































AUC 指标 也 用 于 评价 分 类 器 。MLlib 的 BinaryClassificationMetrics 类 实现 了 这 个 指标 
及 相关 方法 。 对 于 推荐 引擎 ， 为 每 个 用 户 计算 AUC 并 取 其 平均 值 ， 最 后 的 结果 指标 稍 有 
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不 同 ， 可 称 为 “平均 AUC”。 我 们 需要 自己 来 实现 ， 因 为 它 不 是 在 Spark 中 实现 的 。 


其 他 和 评分 系统 相关 的 评价 指标 在 RankingMetrics 类 中 实现 。 这 些 指标 包括 准确 率 、 召 回 
率 和 平均 准确 率 (Mean Average Precision, MAP,， https://en.wikipedia.org/wiki/Information_ 
retrieval) 。MAP 也 常用 ， 它 更 强调 排 在 最 前 面 的 推荐 的 质量 。 但 是 ，AUC 作为 一 种 普遍 
和 综合 的 测量 整体 模型 输出 质量 的 手段 ， 是 我 们 采用 的 。 


事实 上 ， 取 出 一 部 分 数据 来 选择 模型 并 评估 模型 准确 率 是 所 有 机 器 学 习 的 通用 做 法 。 
数据 被 分 成 三 个 子 集 : 训练 集 、 交 又 验 证 (Cross-Validation，CV) 集 和 测试 集 。 0 
初步 示例 中 ， 我 们 只 用 了 两 个 数据 集 : 训练 集 和 交叉 验证 集 。 这 对 于 模型 选择 来 说 已 经 足 
够 了 。 第 4 章 会 进一步 讨论 这 个 概念 并 介绍 测试 集 。 


























3.7 计算 AUC 


平均 AUC 的 具体 实现 请 参考 本 书 附带 的 源 代码 。 代 码 实现 比较 复杂 ， 请 参考 源 代码 的 注 
释 ， 这 里 我 们 就 不 重复 说 明了 。 该 实现 接受 一 个 交 又 验证 集 和 一 个 预测 函数 ， 交 又 验证 集 
代表 每 个 用 户 对 应 的 “正面 的 ”或 “好 的 ”艺术 家 。 预 测 函 数 把 每 个 包含 “用 户 -艺术 家 ” 
对 的 DataFrame 转换 为 一 个 同时 包含 ee 和 “预测 ”的 DataFrame,“ 预 测 ” 
表示 “用 户 ” 与 “艺术 家 ”之 间 关 联 的 强度 值 ， 这 个 值 越 高 ， 代 表 推 荐 的 排名 越 高 。 





























为 了 利用 输入 数据 ， 我 们 需要 把 它 分 成 训练 集 和 验证 集 。 训 练 集 只 用 于 训练 ALS 模型 ， 验 
证 集 用 于 评估 模型 。 这 里 我 们 将 90% 的 数据 用 于 训练 ， 剩 余 的 10% 用 于 交叉 验证 ， 





def areaUnderCurve( 
positiveData: DataFrame， 
bALLArtistIDs: Broadcast[Array[Int]]， 
predictFunction: (DataFrame => DataFrame)): Double = { 


a 


val allData = buildCounts(rawUserArtistData, bArtistAlias) @ 

val Array(trainData, cvData) = allData.randomSplit(Array(0.9, 0.1)) 
trainData.cache() 

cvData.cache() 


val allArtistIDs = allData.select("artist").as[Int].distinct().collect() @ 
val bALLArtistIDs = spark.sparkContext.broadcast(allArtistIDs) 


val model = new ALS(). 
setSeed(Random.nextLong()). 
setImplicitprefs(true). 
setRank(10).setRegParam(0.01).setAlpha(1.0).setMaxIter(5). 
setUserCol("user").setItemCol("artist"). 
setRatingCol("count").setPpredictionCol("prediction"). 
fit(trainData) 

areaUnderCurve(cvData, bAllArtistIDs, model.transform) 
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@ 注意 这 个 函数 已 经 在 前 文 定义 过 了 。 
@ 去 重 并 收集 给 驱动 程序 。 





注意 : areaUnderCurve() 把 一 个 函数 作为 它 的 第 三 个 参数 。 这 里 传人 的 是 ALSModel 的 
transform， 很 快 我 们 会 把 它 替 换 成 其 他 方法 。 

















结果 约 为 0.879。 这 个 结果 好 吗 ? 它 肯 定 比 随机 推荐 的 0.5 要 好 ， 并 且 接 近 最 高 分 1.0。 一 
般 AUC 超过 0.9 是 高 分 。 


可 以 从 数据 集中 选择 另外 的 90% 作为 训练 集 ， 这 样 就 可 以 多 次 进行 模型 评估 。 得 到 的 
AUC 值 的 平均 可 能 会 更 好 地 估计 算法 在 数据 集 上 的 表现 。 实 际 中 一 个 常用 的 做 法 是 把 数据 
集 分 成 个 大 小 差不多 的 子 集 ， 用 全 1 个子 集 做 训练 ， 在 剩 下 的 一 个 子 集 上 做 评估 。 我 们 
把 这 个 过 程 重复 上 次 ， 每 次 用 一 个 不 同 的 子 集 做 评估 。 这 种 做 法 称 为 大 折 交 叉 验 证 (k-fold 
cross-validation ，https:Wen.wikipedia.org/wiki/Cross-validation_(statistics)) 算法 。 为 了 简便 ， 
我 们 在 示例 中 并 没有 实现 大 折 交 叉 验 证 技术 。 但 MLlib 的 CrossValidator API 在 一 定 程度 
上 提供 了 对 这 项 技术 的 支持 。 这 一 验证 用 的 API 在 第 4 章 还 会 出 现 。 




















有 必要 把 上 述 方法 和 一 个 更 简单 方法 做 一 个 基准 比 对 。 举 个 例子 ， 考 虑 下 面 的 推荐 方法 : 
向 每 个 用 户 推荐 播放 最 多 的 艺术 家 。 这 个 策略 一 点 儿 都 不 个 性 化 ， 但 它 很 简单 ， 也 可 能 
效 。 定 义 这 个 简单 预测 函数 并 评估 它 的 AUC 得 分 : 











def predictMostListened(train: DataFrame)(aLLData: DataFrame) = { 


val listenCounts = train. 
groupBy("artist"). 
agg(sum("count").as("prediction")). 
select("artist", "prediction") 


allData. 
join(listenCounts, Seq("artist"), "left_outer"). 
select("user", "artist", "prediction") 


} 


areaUnderCurve(cvData, bALLArtistIDs, predictMostListened(trainData)) 


这 里 再 次 显示 了 Scala 语法 的 特别 之 处 。 这 里 函数 定义 看 似 有 两 个 参数 列表 。 调 用 函数 并 
应 用 前 两 个 参数 得 到 了 一 个 偏 应 用 函数 (partially applied function)， 这 个 函数 本 身 又 带 一 
个 参数 (allData) 并 返回 预测 结果 。predictMostListened(sc，trainData) 的 返回 结果 是 
一 个 函数 。 























结果 得 分 大 约 是 0.88。 这 意味 着 ， 对 AUC 这 个 指标 ， 非 个 性 化 的 推荐 表现 已 经 不 错 了 。 
然而 ， 我 们 想 要 的 是 得 分 更 高 ， 也 就 是 更 为 “个 性 化 ”的 推荐 。 显然 这 个 模型 还 有 待 改 
进 。 还 有 没有 可 能 做 得 更 好 呢 ? 





3.8 选择 超 参数 
到 目前 为 止 ， 我 们 并 没有 对 给 出 的 超 参 数值 做 任何 说 明 。 这 些 值 不 是 由 算法 学 习 得 到 的 ， 
而 是 由 调用 者 指定 的 。 配 置 的 超 参数 包括 以 下 几 个 。 





























。 setRank(10) 
模型 的 潜在 因素 的 个 数 ， 即 “用 户 - 特 征 ” 和 “产品 一 特征 ”和 矩阵 的 列 数 ， 一 般 来 说 ， 
它 也 是 先 阵 的 阶 。 





。 setMaxIter(5) 


怎 阵 分 解 迁 代 的 次 数 ， 和 迭代 的 次 数 越 多 ， 花 费 的 时 间 越 长 ， 但 分 解 的 结果 可 能 会 更 好 。 




















。 SetRegParam(0.01) 
标准 的 过 拟 合 参数 ， 通 常 也 称 作 lambda; 值 越 大 越 不 容易 产生 过 拟 合 ， 但 值 太 大 会 降 
低 分 解 的 准确 率 。 





。 setAlpha(1.0) 
控制 矩阵 分 解 时 ， 被 观察 到 的 “用 户 一 产品 ”交互 相对 没 被 观察 到 的 交互 的 权重 。 


可 以 把 rank、regParam 和 alpha 看 作 模 型 的 超 参数 。(maxIter 更 像 是 对 分 解 过 程 使 用 的 资 
源 的 一 种 约束 。) 这 些 值 不 会 体现 在 ALSModel 的 内 部 矩阵 中 ， 这 些 和 矩阵 只 是 参数 ， 其 值 由 
算法 选 定 。 超 参数 则 是 构建 过 程 本 身 的 参数 。 


刚才 列表 中 给 出 的 超 参数 值 不 一 定 是 最 优 的 。 如 何 选 择 好 的 超 参 数值 在 机 器 学 习 中 是 个 普 
记性 问题 。 最 基本 的 方法 是 尝试 不 同 值 的 组 合并 对 每 个 组 合 评估 某 个 指标 ， 然 后 挑选 指标 
值 最 好 的 组 合 。 






































在 下 面 的 示例 中 ， 我 们 党 试 了 8 种 可 能 的 组 合 : rank = 5 或 30，regParam = 4.0 或 
0.0001， 以 及 atLpha = 1.0 或 40.0。 这 些 值 当然 也 是 猜 的 ， 但 它们 能 够 覆盖 很 大 范围 的 参数 
值 。 各 种 组 合 的 结果 按 AUC 得 分 从 高 到 底 排序 : 























val evaluations = 

for (rank <- Seq(5, 30); 
regParam <- Seq(4.0, 0.0001); 
alpha <- Seq(1.0, 40.0)) © 

yield { 
val model = new ALS(). 

setSeed(Random.nextLong()). 
setImplicitprefs(true). 
setRank(rank).setRegParam(regParam). 
setAlpha(alpha).setMaxIter(20). 
setUserCol("user").setItemCol("artist"). 
setRatingCol("count").setpredictionCol("prediction"). 
fit(trainData) 
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val auc = areaUnderCurve(cvData，bALLArtistIDs，modeL.transform) 


model.userFactors.unpersist() @ 


model.itemFactors.unpersist() 


(auc, (rank, regParam, alpha)) 


} 


evaluations. sorted.reverse.foreach(println) © 


(0.8928367485129145,(30,4.0,40.0)) 
(0.891835487024326, (30,1.0E-4,40.0)) 
(0.8912376926662007,(30,4.0,1.0)) 
(0.889240668173946,(5,4.0,40.0)) 
(0.8886268430389741,(5,4.0,1.0)) 
(0.8883278461068959,(5,1.0E-4,40.0)) 
(0.8825350012228627,(5,1.0E-4,1.0)) 
(0.8770527940660278,(30,1.0E-4,1.0)) 


@ 可 以 理解 为 3 层 租 套 for 循环 。 
立即 释放 模型 占用 的 资源 。 


@ 


@ 按 第 一 个 值 (AUC) 的 降序 排列 并 输出 。 


这 里 的 for 语法 是 Scala 中 写 舱 套 循环 的 一 种 方式 ， 相 当 于 一 个 alpha 循环 


外 面 嵌 套 一 个 regParanm 循环 ， 





外 面 再 租 套 一 个 rank 循环 。 


虽然 这 些 值 的 绝对 差 很 小 ， 但 对 于 AUC 值 来 说 ,仍然 具有 一 定 的 意义 。 有 意思 的 是 ， 参 
数 alpha 取 40 的 时 候 看 起 来 总 是 比 取 1 表现 好 (为 了 满足 读者 的 好 奇 ， 顺 便 提 一 下 ，40 
是 前 面 提 到 的 最 初 ALS 论文 的 默认 值 之 一 )。 这 说 明了 模型 在 强调 用 户 听 过 什么 时 的 表现 


要 比 强调 用 户 设 听 过 什么 时 要 好 。 


regParan 取 较 大 的 值 看 起 来 结果 要 稍微 好 一 些 。 这 表明 模型 有 些 受过 拟 合 的 影响 ， 因 此 需 
要 一 个 较 大 的 regParanm 值 以 防止 过 度 精 确 拟 合 每 个 用 户 的 稀 足 输入 数据 。 第 4 章 将 进一步 


讨论 过 拟 合 。 





正如 预期 的 那样 ， 对 于 这 种 体 量 的 模型 来 说 ，5 个 特征 有 点 少 ， 这 个 模型 的 表现 要 逊 于 使 





用 30 个 用 户 品 味 特 征 的 模型 。 正 确 的 特 和 
时 ， 无 论 是 多 少 ， 区 别 都 不 大 。 


F 值 个 数 实际 上 可 能 大 于 30， 而 特 和 





F 值 个 数 太 小 





当然 我 们 可 以 重复 上 述 过 程 ， 试 试 不 同 的 取 值 范围 或 试 试 更 多 值 。 这 是 超 参数 选择 的 一 种 
暴力 方式 。 但 是 在 当今 这 个 世界 ， 这 种 简单 粗暴 的 方式 变 得 相对 可 行 : 集群 常常 有 几 TB 
内 存 ， 成 百 上 千 个 核 ，Spark 之 类 的 框架 可 以 利用 并 行 计 算 和 内 存 来 提高 速度 。 
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邮 






































严格 来 说 ， 理 解 超 参 数 的 含义 其 实 不 是 必需 的 ， 但 知道 这 些 值 的 典型 范围 有 助 于 找到 一 个 
合适 的 参数 空间 开始 搜索 ， 这 个 空间 不 宜 太 大 ， 也 不 能 太 小 。 
我 们 目前 使 用 的 是 较为 原始 的 手动 调 参 过 程 : 设置 超 参 数 、 构 建 模型 、 评 估 模 型 的 三 


部 曲 。 在 第 4 章 中 学 习 更 多 Spark ML API 以后， 会 发 现 一 种 更 自动 化 的 方式 一 一 管道 
(Pipeline) + TrainValidationSplit, 


3.9 产生 推荐 


现在 用 上 一 节 中 得 到 的 最 优 超 参 数 继续 下 面 的 工作 ， 看 看 新 模型 对 ID 为 2093760 的 用 户 
给 出 什么 样 的 推荐 : 
































| [unknown]| 
|The Beatles| 
| Eminem| 
| U2| 
| Green Day| 





令 人 欣慰 的 是 ， 现 在 给 出 的 推荐 要 更 符合 这 位 用 户 的 品味 一 些 ， 其 中 大 部 分 是 流行 摇滚 ， 
而 非 之 前 那样 全 都 是 嘻哈 风格 。 推 荐 列表 中 [unknown] 明显 不 是 一 个 艺术 家 。 查 看 原始 数 
据 集会 发 现 [unknown] 出 现 了 429 447 次 ， 儿 乎 可 以 排 到 前 100 了 。[unknown] 是 没有 艺术 
家 信息 的 播放 记录 的 一 个 默认 值 ， 可 能 是 某 个 客户 端 提供 的 。 这 个 信息 是 没有 用 的 ， 下 次 
我 们 应 该 在 开始 的 时 候 把 它 扔 掉 。 这 又 再 次 说 明 ， 数 据 科学 实践 往往 是 迭代 式 的 ， 每 个 阶 
段 我 们 对 数据 都 有 新 发 现 。 














这 个 模型 可 以 对 所 有 用 户 产生 推荐 。 它 可 以 用 于 批 处 理 ， 批 处 理 每 隔 一 个 小 时 或 更 短 的 时 
间 为 所 有 用 户 重 算 模 型 和 推荐 结果 ， 具 体 时 间 间 隔 取 决 于 数据 规模 和 集群 速度 。 


























但 是 目前 Spark MLlib 的 ALS 实现 并 不 支持 向 所 有 用 户 给 出 推荐 。 该 实现 可 以 每 次 对 一 个 
用 户 进行 推荐 ， 这 样 每 一 次 都 会 启动 一 个 短 的 几 秒 钟 的 分 布 式 作 业 。 这 适合 对 小 用 户 群 体 
快速 重 算 推荐 。 下 面 对 数据 中 的 100 个 用 户 进行 推荐 并 打印 结果 : 




















val someUsers = allData.select("user").as[Int].distinct().take(100) © 
val someRecommendations = 
someUsers.map(userID => (userID, makeRecommendations(model, userID, 5))) @ 
someRecommendations.foreach { case (userID, recsDF) => 
val recommendedArtists = recsDF.select("artist").as[Int].collect() 
println(s"S$userID -> ${recommendedArtists.mkString(", ")}") © 


} 
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1000190 -> 6694932，435，1005820，58，1244362 
1001043 -> 1854，4267，1006016 ，4468，1274 
1001129 -> 234, 1411, 1307, 189, 121 


@ 把 100 个 (不 同 的 ) 用 户 复制 到 驱动 程序 端 。 
@ map() 在 这 里 是 一 个 本 地 Scala 运算 。 
@ mkstring 用 分 隔 符 把 集合 中 的 元 素 连接 成 一 个 字符 串 。 











现在 只 是 把 推荐 结果 打印 出 来 。 结 果 也 可 以 写 到 外 部 存储 上 ， 比 如 HBase (https://hbase. 
apache.org/) 上 ， 这 样 可 以 在 运行 时 利用 HBase 提供 快速 查询 。 





有 意思 的 是 ， 整 个 流程 也 可 能 用 于 向 艺术 家 推荐 用 户 。 这 可 用 于 回答 类 似 这 样 的 问题 : 
“艺术 家 外 的 新 专辑 ， 哪 100 个 用 户 可 能 最 感 兴趣 ? ”在 向 艺术 家 推荐 用 户 时 ， 只 需要 在 
解析 输入 的 时 候 对 换 用 户 和 艺术 家 字段 就 可 以 了 。 














rawArtistData.map { line => 
val (id, name) = line.span(_ != '\t') 
(name.trim, id.int) 


} 


3.10 小结 


显然 我 们 可 以 花 多 点 儿 时 间 来 对 模型 参数 进行 调 优 ， 找 出 输入 数据 中 的 异常 情况 ， 比 如 说 
有 的 艺术 家 名 字 为 [unknown] ， 并 修复 这 些 问 题 。 举 个 例子 来 说 ， 对 播放 次 数 进行 快速 分 
析 就 会 发 现 ，ID 为 2064012 的 用 户 播放 ID 为 4468 的 艺术 家 高 达 439 771 次 ， 这 太 让 人 吃 
惊 了 。ID 为 4468 的 艺术 家 是 杰出 的 独立 金属 乐队 System of a Down， 之 前 的 推荐 中 出 现 
过 。 假 定 每 首 歌曲 长 度 为 4 分 钟 ， 如 果 播 放 “Chop Suey!” 和 “B.Y.O0.B.” 这 样 的 热门 歌 
曲 ，33 年 也 完成 不 了 。 因 为 乐队 1998 年 才 开 始 录制 唱片 ， 即 使 同时 播放 4~5 首 单 曲 也 要 
7 年 ， 所 以 这 肯定 是 垃圾 数据 、 数 据 错误 或 者 某 类 实际 数据 问题 ， 这 些 问 题 生 产 系统 必须 
要 解决 。 


ALS 不 是 唯一 的 推荐 引擎 算法 。 目 前 它 是 Spark MLlib 唯一 支持 的 算法 。 但 是 ， 对 于 非 隐 
含 数据 ，MLlib 也 支持 一 种 ALS 的 变 体 ， 它 的 用 法 和 ALS 是 一 样 的 ， 不 同 之 处 在 于 ALS 
使 用 setImplicitprefs(false) 配置 。 它 适用 于 给 出 评分 数据 而 不 是 次 数 数据 。 比 如 ， 如 
果 数 据 集 是 用 户 对 艺术 家 的 打分 ， 取 值 范围 是 1~5， 那 么 用 这 种 变 体 就 很 合适 。 推 荐 方法 
ALSModel.transform 返回 结果 列 prediction， 它 才 是 模型 估算 出 的 评分 。 这 种 情况 下 ， 简 
单 的 均 方 根 误差 (root mean squared error，RMSE) 度量 标准 就 能 够 评价 推荐 算法 了 。 


今后 Spark MLlib 或 其 他 库 可 能 支持 其 他 推荐 算法 。 
在 生产 环境 下 ， 推 荐 引擎 需要 实时 给 出 推荐 ， 因 为 它们 篆 用 于 电 商 网 站 。 在 这 类 环境 中 ， 
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客户 浏览 商品 页 面 时 需要 推荐 引擎 频繁 给 出 推荐 。 像 前 面 提 到 的 那样 ， 预 先 计算 并 把 得 到 
的 推荐 结果 存 到 一 个 NoSQL 存储 中 ， 在 大 规模 情况 下 不 失 为 一 种 合理 的 策略 。 这 种 做 法 
的 一 个 缺点 是 需要 对 所 有 可 能 提供 快速 推荐 的 用 户 进 行 预计 算 ， 但 这 些 用 户 可 能 是 任何 一 
个 用 户 。 举 例 来 讲 ， 即 使 100 万 个 用 户 中 每 天 只 有 10 000 个 访问 网 站 ， 我 们 也 要 为 100 万 
个 用 户 做 预计 算 ， 其 中 99% 的 工作 是 浪费 的 。 


如 果 能 随时 按 需 计算 出 推荐 结果 就 更 好 了 。 虽 然 我 们 可 以 用 ALSModet 为 单个 用 户 计算 
推荐 结果 ， 它 却 还 是 一 个 分 布 式 运算 ,需要 花费 儿 秒 钟 。 因 为 ALSModel 非常 大， 所 以 
实际 上 是 个 分 布 式 数据 集 。 其 他 模型 情况 有 些 不 同 ， 它 们 可 以 更 快 地 给 出 评分 。Oryx 2 
(https://github.com/OryxProject/oryx) 之 类 的 项 目 试 图 实现 实时 按 需 推荐 ， 其 底层 用 
MLlib 之 类 的 库 ， 但 用 高 效 的 方式 访问 内 存 中 的 模型 数据 。 
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第 4 章 


用 决 菜 树 算法 预测 森林 秆 被 





作者 : 肖 恩 .欧文 


预测 是 非常 困难 的 ， 更 别提 预测 未 来 。 
Niels Bohr 





19 世纪 末 ， 英 国 科学 家 弗 兰 西 斯 :高 尔 顿 历 士 《Francis Galton， 达 尔 文 的 表 兄 ) 忙于 测量 
豌豆 的 大 小 和 人 类 的 身高 来 寻找 规律 。 他 发 现 大 豌豆 的 子 代 一 般 会 大 于 子 代 豌豆 的 平均 
大 小 〈 人 类 也 如 此 )。 这 没有 什么 好 奇怪 的 。 但 是 ， 大 豌豆 的 子 代 通 常 比 它们 的 父 代 要 小 。 
对 人 类 而 言 ， 身 高 7 英尺 的 篮球 和 运动员 的 孩子 很 可 能 比 一 般 人 要 高 ， 但 是 身高 达到 7 英尺 
的 可 能 性 却 较 小 。 


高 尔 顿 这 个 研究 的 另 一 个 成 果 是 ， 他 通过 绘制 子 代 大 小 与 父 代 大 小 的 关系 图 ， 发 现 二 者 之 
间 存 在 近似 的 线性 关系 。 父 代 吏 豆 大 ， 子 代 豌 豆 也 大 ， 但 要 略 小 于 父 代 豌豆 ， 父 代 豌 豆 
小 ， 子 代 吏 豆 也 小 ， 但 要 略 大 于 父 代 豆 豆 。 因 此 曲线 斜率 为 正 但 小 于 1， 高 尔 顿 把 这 种 现 
象 称 为 趋 均 数 回归 (regression to the mean) ， 此 名 称 被 沿用 至 今 。 











依 我 看 ， 这 条 线 就 是 早期 的 预测 模型 ， 尽 管 当时 还 没有 人 这 么 提出 。 这 条 线 把 两 个 值 关 联 
在 一 起 ， 意 味 着 知道 了 一 个 值 就 大 体 知道 了 另 一 个 值 。 如 果 知 道 一 颗 新 吏 豆 的 大 小 ， 根 据 
这 种 关联 关系 ， 我 们 就 能 更 准确 估计 其 后 代 的 大 小 ， 这 样 做 出 的 估计 要 比 简单 假设 “ 子 
代 ” 的 大 小 接近 于 “ 父 代 或 同类 ”更 准确 。 
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4.1 回归 简介 

经 过 随后 一 百 多 年 统计 学 的 发 展 ， 随 着 现代 机 器 学 习 和 数据 科学 的 出 现 ， 我 们 依旧 把 从 
“ 某 些 值 ”预测 “另外 某 个 值 ”的 思想 称 为 回归 (https://en.wikipedia.org/wiki/Regression_ 
analysis) ， 即 使 它 已 经 和 “ 趋 均 数 回 归 ” 没 有 任何 关系 ， 也 跟 “ 向 后 移动 ”不 沾边 。 回 归 
技术 和 分 类 (https://en.wikipedia.org/wiki/Statistical_classification) 技术 关系 紧密 。 通 常 来 
讲 ， 回 归 是 预测 一 个 数值 型 数量 (numeric quantity)， 比 如 大 小 、 收 入 和 温度 ， 而 分 类 则 指 
预测 标号 (label) 或 类 别 (category)， 比 如 判断 邮件 是 否 为 “垃圾 邮件 ”， 拼 图 游戏 的 图 案 
是 否 为 “ 猫 ”。 

将 回归 和 分 类 联系 在 一 起 是 因为 两 者 都 可 以 通过 一 个 (或 更 多 ) 值 预测 另 一 个 (或 更 
多 ) 值 。 为 了 能 够 做 出 预测 ， 两 者 都 需要 从 一 组 输入 和 输出 中 学 习 预 测 规则 。 在 学 习 过 
程 中 ， 需 要 告诉 它们 问题 以 及 问题 的 答案 。 因 此 ， 它 们 都 属于 所 谓 的 监督 学 习 (https:// 


en.wWikipedia.org/wiki/Supervised_learning ) 。 









































分 类 和 回归 是 分 析 预 测 中 最 古老 的 话题 ， 也 是 被 研究 得 最 多 的 一 类 问题 。 分 析 用 的 程序 包 
(package) 和 程序 库 (library) 中 的 多 数 算法 ， 都 属于 分 类 和 回归 技术 ， 比 如 支持 向 量 机 、 
logistic 回归 、 朴 素 贝 叶 斯 算法 、 神 经 网 络 和 深度 学 习 。 第 3 章 介绍 的 推荐 系统 ， 相 对 容易 
解释 ， 但 那 也 是 机 器 学 习 领 域 中 一 个 相对 比较 新 和 比较 独立 的 子 课 题 。 

















本 章 将 重点 关注 决策 树 算 法 (https://en.wikipedia.org/wiki/Decision_tree) 和 它 的 扩展 随 
机 决策 森林 算法 (https://en.wikipedia.org/wiki/Random_forest)， 这 两 个 算法 灵活 且 应 用 
广泛 ， 既 可 用 于 分 类 问题 ， 也 可 用 于 回归 问题 。 更 让 人 兴奋 的 是 ， 它 们 可 以 帮助 我 们 预 
测 未 来 ， 至 少 是 预测 我 们 尚 不 肯定 的 事情 。 比 如 说 ， 根 据 线 上 行为 来 预测 购买 汽车 的 概 
率 ， 根据 用 词 预 测 邮件 是 否 是 垃圾 邮件 ， 根 据 地 理 位 置 和 土壤 的 化 学 成 分 预测 哪 块 耕地 


的 产量 可 能 更 高 。 


4.2 ”向 量 和 特征 


为 了 便于 解释 本 章 选 择 的 数据 集 和 要 着 重 介绍 的 算法 ， 以 及 为 了 便于 下 一 步 介 绍 回归 和 分 
类 的 原理 ， 有 必要 先 对 描述 输入 和 输出 的 术语 做 个 简短 定义 。 


























我 们 想 根据 今天 的 天 气 预测 明天 的 气温 。 这 个 没有 问题 但 “今天 的 天 气 ” 是 个 宽泛 的 概 
念 ， 并 且 在 用 于 机 器 学 习 算 法 之 前 需要 对 它 进行 结构 化 。 





“今天 的 天 气 ” 中 某 些 “特征 ”也 许可 以 用 来 预测 明天 的 气温 ， 比 如 : 
。 今天 的 最 低 气温 
。 今天 的 最 高 气温 


。 今天 的 平均 湿度 
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。 今天 是 多 云 、 有 雨 还 是 晴朗 
。 今天 有 儿 家 天 气 预 报 站 预报 明天 有 寒流 


这 些 特征 有 时 也 被 称 为 维度 、 预 测 指标 或 简单 地 称 为 变量 。 以 上 每 个 特征 都 可 以 被 量化 。 
比如 气温 高 低 可 以 用 “摄氏 度 ” 度 量 ， 湿 度 可 以 用 0~1 范围 内 的 小 数 来 度量 ， 天 气 类 型 可 
以 用 “多 云 ”“ 有 雨 ” 和 “上 晴朗 ”来 标示 。 天 气 预报 的 个 数 则 是 个 整数 。 因 此 今天 的 天 气 
可 以 简化 为 一 个 值 列 表 : 13.1，19.0，0.73， 多 云 ,1。 




















这 5 个 特征 值 按 顺序 排列 ， 就 是 所 谓 的 特征 向 量 ， 它 可 用 于 描述 每 天 的 天 气 。 这 种 用 法 与 
线性 代数 里 的 “向 量 ” 比 较 类 似 ， 但 稍微 不 同 的 是 ， 这 里 我 们 所 说 的 向 量 值 可 以 包含 非 数 
值 ， 有 些 值 甚至 可 以 为 空 。 


这 些 特 征 值 的 类 型 各 有 不 同 。 前 两 个 特征 用 “摄氏 度 ” 来 计量 ， 第 三 个 特征 则 是 个 不 带 单 
位 的 小 数 。 第 四 个 根本 就 不 是 数值 ， 第 五 个 是 一 个 非 负 整数 。 




















为 了 便于 讨论 ， 本 书 将 特征 只 分 为 两 大 类 : 类 别 型 特征 〈categorical feature) 和 数值 型 特征 
(numeric feature) 。 这 里 的 数值 型 特征 是 指 可 以 用 数值 进行 量化 的 特征 ， 并 且 对 这 些 特 征 排 
序 是 有 意义 的 。 比 如 ,今天 最 高 气温 为 23 摄氏 度 ， 它 比 昨 天 最 高 气温 22 摄氏 度 要 高 ， 这 
种 说 法 是 有 意义 的 。 除 天 气 类 型 外 ， 前 面 提 到 的 所 有 特征 都 是 数值 型 特征 。 “晴朗 ”这 类 
词语 不 是 数字 ， 没 有 大 小 顺序 可 言 。 “多云 比 晴朗 大 ”这 种 说 法 是 没有 意义 的 。 天 气 类 型 
就 属于 类 别 型 特征 ， 类 别 型 特征 只 能 在 几 个 离散 值 中 取 一 个 。 


4.3 样本 训练 


为 了 进行 预测 ， 学 习 算 法 需要 在 大 量 数据 上 进行 训练 。 这 需要 从 历史 数据 中 获取 大 量 的 数 
据 和 输入 和 相应 的 已 知 的 正确 的 数据 输出 。 比 如， 在 示例 中 我 们 会 向 学 习 算法 给 出 如 下 样本 
数据 某 一 天 ， 气 温 12~16 摄氏 度 ， 湿 度 10%， 晴 朗 ， 没 有 寒流 预报 ， 第 二 天 最 高 气温 为 
17.2 摄氏 度 。 如 果 这 样 的 样本 数量 足够 多 ， 学 习 算 法 就 可 能 学 会 以 一 定 准确 率 来 预测 第 二 


天 最 高 气温 。 


特征 向 量 为 学 习 算法 的 输入 提供 了 一 种 结构 化 的 方式 (如 输入 : 12.5,15.5,0.10, 晴朗 ,0)。 
预测 的 输出 〈 即 目标 ) 也 被 称 为 一 个 特征 ， 它 是 一 个 数值 型 特征 : 17.2。 通 常 我 们 把 目 
标 作为 特征 向 量 的 一 个 附加 特征 。 因 此 可 以 把 整个 训练 样本 列 示 为 : 12.5,15.5,9.10, 晴 
朗 ,0,17.2。 所 有 这 些 样本 的 集合 称 为 训练 集 。 


读者 要 注意 ， 回 归 和 分 类 的 区 别 在 于 : 回归 问题 的 目标 为 数值 型 特征 ， 而 分 类 问题 的 目标 


为 类 别 型 特征 。 并 不 是 所 有 的 回归 或 分 类 算法 都 能 够 处 理 类 别 型 特征 或 类 别 型 目标 ， 有 些 
算法 只 能 处 理 数值 型 特征 。 

























































































4.4 决策 树 和 决策 森林 


事实 证 明 ， 决 策 树 算法 家 族 能 自然 地 处 理 类 别 型 和 数值 型 特征 。 单 棵 决策 树 可 以 并 行 构 
建 ， 许 多 树 也 可 以 同时 并 行 构建 。 它 们 对 数据 中 的 离 群 点 (outlier) 具有 稳健 性 (robust)， 
这 意味 着 一 些 极端 或 可 能 错误 的 数据 点 根本 不 会 对 预测 产生 影响 。 算 法 可 以 接受 不 同类 型 
和 不 同 取 值 范 围 的 数据 ， 不 需要 将 数据 转化 成 同一 类 型 ， 或 是 将 数据 规范 化 到 特定 的 值 域 
中 。 数 据 类 型 和 数据 取 值 范围 不 相同 的 问题 在 第 5 章 会 再 次 涉及 。 

决策 树 可 以 推广 为 更 强大 的 决策 森林 (random decision forest) 算法 。 由 于 决策 森林 算法 
的 灵活 性 ， 我 们 认为 有 必要 在 本 章 介绍 它 。 本 章 将 会 把 Spark MLlib 的 DecisionTree 和 
RandomForest 算法 实现 应 用 到 一 个 数据 集 上 。 





hl 


























基于 决策 树 的 算法 还 有 一 个 优点 ， 那 就 是 理解 和 推理 起 来 相对 直观 。 实 际 上 ， 我 们 在 日 常 
生活 中 大 概 都 无 意 间 用 过 决策 树 所 体现 的 推理 方法 。 举 个 例子 ， 早 上 我 正 要 坐 下 来 喝 杯 加 
奶 咖 啡 ， 在 打 定 主意 在 咖啡 中 加 牛奶 之 前 ， 我 会 预测 : 牛奶 有 设 有 变质 呢 ? 我 不 确定 牛奶 
是 否 变质 。 于 是 我 会 检查 一 下 牛奶 的 建议 食用 期 。 如 果 建 议 食 用 期 没 过 ， 我 会 预测 牛奶 没 
有 变质 。 如 果 已 经 过 了 建议 食用 期 , 但 没有 超过 3 天 ， 我 会 猜测 牛奶 还 没 变质 。 如 果 超 过 
建议 食用 期 3 天 以 上 ， 我 会 闻 一 下 。 如 果 和 牛奶 的 气味 有 点 儿 异 常 ， 我 会 预测 牛奶 已 经 变质 
了 ， 否 则 就 没 变质 。 





























这 一 系列 的 “是 / 否 ” 判 断 就 是 决策 树 算法 所 体现 的 预测 过 程 。 每 个 判断 会 走 到 两 个 分 支 
中 的 一 个 ， 非 此 即 彼 ， 如 图 4-1 所 示 。 














牛奶 过 建议 食用 期 了 吗 ? 


超过 建议 食用 
期 3 天 以 上 了 吗 ? 


闻 起 来 有 异味 吗 ? 


Pt 











图 4-1: 决策 树 





牛奶 变质 了 吗 
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前 面 提 到 的 规则 是 我 在 大 学 期 间 学 会 的 ， 很 直观 。 这 些 规则 不 但 简单 ， 而 且 能 有 效 地 帮 有 我 
区 分 牛奶 是 否 已 经 变质 了 。 这 些 都 是 一 棵 好 的 决策 树 的 特点 。 





一 1 














上 面 是 一 棵 简化 的 决策 树 ， 构 造 过 程 非常 灵活 。 为 了 更 详细 地 说 明 决 策 树 ， 我 们 来 看 看 
男 外 一 个 例子 。 在 一 家 新 奇 的 宠物 店 ， 一 个 机 器 人 正 忙 于 工作 。 在 完 物 店 开 门 营 业 之 前 ， 
它 要 学 习 什 么 动物 适合 成 为 孩子 们 的 宠物 。 在 开始 之 前 ， 店 长 给 出 了 9 种 完 物 ， 其 中 有 
的 适合 做 完 物 ， 有 的 不 适合 。 经 过 一 番 检 查 ， 机 器 人 把 这 些 信息 编写 成 一 张 表格 ， 如 表 
4-1 所 示 。 














表 4-1: 新 奇 宠物 店 的 “特征 向 量 ” 

















名 字 重量 ( 公斤 ) 腿 数 颜 色 适合 做 宠物 吗 
Fido 20.5 4 棕色 是 

Mr. Slither 3.1 0 绿色 否 

Nemo 0.2 0 棕 黄 色 是 

Dumbo 1390.8 4 灰色 否 

Kitty 12.1 4 灰色 是 

Jim 150.9 2 棕 黄色 否 

Millie 0.1 100 棕色 否 
McPigeon 1.0 2 灰色 否 

Spot 10.0 4 棕色 是 

虽然 数据 中 已 经 给 定 了 名 字 ， 但 名 字 并 不 能 作为 一 个 特征 。 我 们 没有 道理 认为 名 字 本 身 具 





有 预测 性 : 就 机 器 人 所 知 ，“Felix” 可 能 是 只 猫 的 名 字 ， 也 可 能 是 只 有 毒 的 狼 蛛 。 因 此 ， 
这 里 所 剩 的 特征 有 : 两 个 数值 型 特征 (重量 、 腿 数 )， 一 个 类 别 型 特征 (颜色 )， 这 3 个 特 
征用 来 预测 一 个 类 别 型 目标 (是否 适合 做 小 孩 的 宠物 )。 








机 器 人 可 能 会 用 一 个 简单 的 决策 树 拟 合 训练 数据 集 ， 这 棵 决策 树 只 根据 “重量 ”做 决策 ， 


如 图 4-2 所 示 。 
重量 之 500 公 斤 吗 ? 
























图 4-2: 机 器 人 的 第 一 棵 决策 树 


决策 树 逻 辑 很 好 理解 ， 而 且 有 一 定 的 道理 :500 公斤 的 动物 肯定 不 适合 做 宠物 。 这 条 规则 
能 对 9 个 样本 中 的 5 个 做 出 正确 预测 。 快 速 看 一 下 训练 数据 ， 我 们 就 能 发 现 把 重量 的 国 值 
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降低 为 100 公斤 能 够 改进 决策 规则 。 这 样 我 们 就 能 正确 预测 6 个 样本 。 现 在 重 的 动物 都 能 
预测 正确 了 ， 但 轻 的 动物 只 能 部 分 预测 正确 。 











因此 ， 为 了 进一步 提高 对 体重 小 于 100 公斤 的 动物 的 预测 准确 率 ， 机 器 人 进行 了 第 二 次 决 
策 。 如 果 能 找到 一 个 特征 ， 通 过 这 个 特征 将 错误 的 “是 ”预测 纠正 为 “ 否 ”预测 ， 那 就 太 
好 了 。 比 如 ， 训 练 集 中 有 一 种 小 型 的 绿色 动物 ， 看 上 去 有 点 儿 像 条 蛇 ， 不 适合 做 宠物 ， 机 
器 人 就 可 以 根据 颜色 对 此 做 出 正确 判断 ， 如 图 4-3 所 示 。 


重量 二 100 公 斤 吗 ? 


颜色 是 绿色 吗 ? 






























而 











图 4-3: 机 器 人 的 第 二 棵 决策 树 


现在 9 个 样本 中 有 7 个 可 以 正确 预测 。 当 然 ， 可 以 一 直 增 加 决策 规则 ， 直 到 对 所 有 9 个 样本 
都 能 全 部 正确 地 做 出 预测 。 但 这 样 得 出 的 决策 树 很 可 能 不 合理 ， 如 有 果 翻 译 成 常用 语 ， 决 策 树 
可 能 是 :“ 如 果 动 物 的 重量 小 于 100 公斤 ， 颜 色 是 棕色 而 不 是 绿色 ， 并 且 腿 的 数量 少 于 10， 那 
么 它 适 合 做 宠物 。” 虽 然 能 完美 拟 合 给 定 样本 ， 但 这 样 的 决策 树 不 能 预测 出 棕色 、 有 4 条 腿 的 
小 型 狼 多 不 合适 做 宠物 。 看 来 ， 为 避免 这 种 被 称 为 过 度 拟 合 的 现象 ， 还 是 需要 继续 改进 啊 。 
不 过 到 目前 为 止 ， 对 决策 树 算 法 的 介绍 已 经 足够 我 们 在 Spark 中 使 用 决策 树 算法 了 。 本 章 
接 下 来 的 内 容 将 描述 怎样 选择 决策 规则 ， 何 时 停止 决策 过 程 ， 以 及 怎样 通过 创建 决策 森林 
来 提高 准确 率 。 





























4.5 ”Covtype 数 据 集 


本 章 用 到 的 数据 集 是 著名 的 Covtype 数据 集 ， 该 数据 集 可 以 在 线 下 载 (https://archive.ics.uci. 
edu/ml/machine-learning-databases/covtype)， 包 含 一 个 CSV 格式 的 压缩 数据 文件 covtype. 
data.gz， 附 带 一 个 描述 数据 文件 的 信息 文件 covtype.info。 


该 数据 集 记 录 了 美国 科罗拉多 州 不 同 地 块 的 森林 植被 类 型 (也 就 是 现实 中 的 森林 ， 这 仅仅 
是 马 合 ) ， 每 个 样本 包含 了 描述 每 块 土地 的 若干 特征 ， 包 括 海拔 、 坡 度 、 到 水 源 的 距离 、 
遮阳 情况 和 土壤 类 型 ， 并 且 给 出 了 地 块 对 应 的 已 知 森林 植被 类 型 。 我 们 需要 总 共 54 个 特 
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征 中 的 其 余 各 项 来 预测 森林 植被 类 型 。 


人 们 已 经 用 该 数据 集 进行 了 研究 ， 甚 至 在 Kaggle 大 赛 (https://www.kaggle.com/c/forest- 
cover-type-prediction) 中 也 用 过 它 。 本 章 之 所 以 研究 这 个 数据 集 , 原因 在 于 它 不 但 包含 了 数 
值 型 特征 ， 还 包含 了 类 别 型 特征 。 该 数据 集 有 581 012 个 样本 ,虽然 还 称 不 上 大 数据 ， 但 
作为 一 个 范例 来 已 经 足够 大 ， 而 且 也 能 够 反映 出 大 数据 上 的 一 些 问题 。 


4.6 准备 数据 

幸运 的 是 ， 数 据 已 经 是 简单 的 CSV 格式 了 。 在 开始 用 Spark 的 MLlib 之 前 ， 我 们 不 需要 进 
行 大 量 的 请 洗 或 其 他 准备 工作 。 后 面 我 们 将 介绍 如 何 对 数据 做 一 些 转换 ， 但 现在 该 数据 集 
可 以 直接 开始 用 。 









































解压 covtype.data 文件 并 复制 到 HDFS。 本 章 我 们 假定 文件 放 在 /user/ds/ 目录 下 。 请 启 
动 spark-sheLL。 你 可 能 会 再 次 发 现 ， 由 于 创建 决策 森林 是 资源 密集 型 的 任务 ， 给 spark- 
shell 提供 足够 大 的 内 存 是 十 分 有 帮助 的 。 如 果 内 存 充 足 的 话 ， 可 以 通过 spark-shell 指定 
--driver-memory 8g 或 差不多 大 小 的 内 存量 。 
CSYV 文件 基本 上 是 表格 数据 ， 组 织 成 许多 行 ， 每 行 又 包含 多 个 列 。 文 件 首 行 有 时 是 列 名 ， 
但 此 处 首 行 并 不 是 列 名 ， 列 名 在 随 附 的 文件 covtype.info 中 。 从 概念 上 说 ，CSYV 文件 的 每 
列 还 会 有 一 个 类 型 ， 比 如 数字 类 型 、 字 符 串 类 型 ， 但 是 CSV 文件 并 没有 指明 列 的 类 型 。 


很 自然 地 ， 我 们 把 该 数据 解析 成 DataFrame， 因 为 DataFrame 就 是 Spark 针对 表格 数据 的 抽 
象 ， 它 有 定义 好 的 模式 ， 包 括 列 名 和 列 类 型 。 事 实 上 ，Spark 内 置 了 读 取 CSV 数据 的 功能 : 























val dataWithoutHeader = spark.read . 
option("inferSchema", true). 
option("header", false). 
csv("hdfs:///user/ds/covtype.data") 


org.apache.spark.sql.DataFrame = [_cO: int, _ci: int ... 53 more fields] 


这 段 代 码 读 取 CSV 输入 ,但 并 没有 把 第 一 行 解析 为 列 名 。 通 过 检查 数据 来 推断 每 列 的 类 
型 ， 代 码 正确 推断 出 所 有 列 都 是 数值 类 型 ， 更 精确 地 说 是 整数 。 但 不 幸 的 是 ， 代 码 只 能 把 
列 名 依次 指定 为 “<9、_c1， 等 等 。 


检查 一 下 列 名 ， 可 以 清楚 地 看 到 ， 有 些 特征 确实 是 数值 型 。 “高度” 以 米 为 单位 ，“ 坡 度 ” 
以 度 为 单位 。 但 是 “ 序 野 区 域 ” 有 些 不 同 ， 因 为 它 横 跨 4 列 ， 每 列 要 么 为 0， 要 么 为 1。 
实际 上 充 野 区 域 是 一 个 类 别 型 特征 ， 而 非 数 值 型 。 




















这 4 列 其 实 是 one-hot (https://en.wikipedia.org/wiki/One-hot) 或 1-of-n 编码 。 在 这 种 编码 
中 ,一 个 及 个 不 同 取 值 的 类 别 型 特征 可 以 变 成 NN 个 数值 型 特征 ， 变 换 后 的 每 个 数值 型 特 
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征 的 取 值 为 0 或 1。 在 这 NN 个 特征 中 ， 有 且 只 有 一 个 取 值 为 1， 基 他 特征 取 值 都 为 0。 比 
如 ， 类 别 型 特征 “天 气 ” 可 能 的 取 值 有 “多 云 "“ 有 十” 或“ 晴朗”。 在 1-of-n 编码 中 ， 它 
就 变 成 了 3 个 数值 型 特征 : 多 云 用 1,9,9 表示 ， 有 十 用 9,1,9 表示 ， 上 晴朗 用 9,9,1 表示 。 
可 以 为 这 3 个 数值 型 特征 分 别 取 名 : is_cloudy、is_rainy 和 is_ctear。 同 样 ， 还 有 40 列 
也 是 同一 个 类 别 型 特征 SotL_Type。 

这 并 不 是 将 分 类 特性 编码 为 数值 的 唯一 方法 。 另 一 种 可 能 的 编码 方式 是 为 类 别 型 特征 的 每 
个 可 能 取 值 分 配 一 个 不 同 数 值 ， 比 如 多 云 1.0、 有 雨 2.0 等 。 目 标 “Cover_Type” 本 身 也 是 
类 别 型 值 ， 用 1~7 编码 。 




















在 编码 过 程 中 ， 将 类 别 型 特征 当成 数值 型 特征 时 要 小 心 。 类 别 型 特征 值 原本 
是 没有 大 小 顺序 可 言 的 ， 但 被 编码 为 数值 之 后 ， 它 们 就 “显得 ”有 大 小 顺序 
了 。 被 编码 后 的 特征 若 被 视 为 数值 ， 算 法 在 一 定 程度 上 会 假定 有 雨 比 多 云 
大 ， 而 且 大 两 倍 ， 这 样 就 可 能 导致 不 合理 的 结果 。 当 然 ， 只 要 算法 不 把 数字 
编码 当 作 数 值 来 用 也 没什么 问题 。 






































于 是 在 Covtype 数据 集中 ， 我 们 看 到 它 同时 使 用 了 前 面 提 到 的 类 别 型 变量 的 两 种 编码 方法 。 
如 果 对 类 别 型 特征 不 用 这 两 种 编码 方式 ， 而 是 直接 使 用 类 似 “Rawah Wilderness Area” 这 
样 的 值 ， 有 可 能 会 更 简单 更 直接 。 这 可 能 是 历史 的 产物 : Covtype 数据 集 在 1998 年 发 布 。 
基于 性 能 方面 的 考虑 ， 或 者 为 了 满足 当时 处 理工 具 要 求 的 格式 (当时 工具 更 多 是 面向 回归 
问题 的 ) ， 数 据 集 往往 用 这 样 的 方式 进行 编码 。 


无 论 如 何 ， 在 处 理 DataFrame 之 前 ， 将 列 名 添加 到 其 中 是 有 帮助 的 ， 可 以 让 它 使 用 起 来 更 
方便 : 


















































val colNames = Seq( 

"Elevation", "Aspect", "Slope", 
"Horizontal_Distance_To_Hydrology", "Vertical Distance_To_Hydrology", 
"Horizontal_Distance_To_Roadways", 

"Hillshade_9am", "Hillshade_Noon", "Hillshade_3pm", 
"Horizontal_Distance_To_Fire_Points" 

++(@ 

(0 until 4).map(i => s"Wilderness Area_ $1") 

++ ( 

(0 until 40).map(i => s"Soil Type_$i") 

++ Seq("Cover_Type") 


se 


val data = dataWithoutHeader .toDF(CoLNames:_*) . 
withColumn("Cover_Type", $"Cover_Type".cast("double")) 


data.head 


org.apache.spark.sqL.Row = [2596,51,3,258,0,510,221,232,148,6279,1,0,0,0,... 


@ ++ 操作 符 可 以 连接 两 个 集合 。 
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“wilderness-” 和 “soil-related” 列 分 别 被 命名 为 “Wilderness_Area 0” 和 “Soil Type 0” 。 
使 用 一 些 Scala 代码 可 以 生成 这 44 个 名 字 ， 不 需要 手动 输入 。 最 后 ， 目 标 列 “Cover _ 
Type” 被 预先 转换 成 双 精 度 值 ， 在 Spark MLlib 所 有 API 中 ， 目 标 列 通常 都 被 视 为 双 精 度 
浮 点 数 类 型 而 不 是 整 型 。 这 种 转换 是 对 用 户 透明 的 。 


你 可 以 调用 data.show() 来 查看 数据 集 的 某 些 行 ， 但 是 显示 行 非常 宽 ， 因 此 很 难 阅 读 。 
data.head 可 以 显示 原始 的 Row 对 象 ， 在 这 种 情况 下 使 用 data.head 具有 更 好 的 可 读 性 。 


4.7 第 一 棵 决策 树 

第 3 章 从 所 给 数据 中 快速 地 建立 了 一 个 推荐 模型 。 大 家 可 以 借助 一 些 音 乐 知识 赁 感觉 就 能 
对 这 个 推荐 引擎 做 一 些 判断 : 只 要 对 比 看 看 用 户 的 收听 习惯 和 引擎 推荐 的 艺术 家 ， 就 能 
概 知道 推荐 引擎 给 出 的 推荐 还 不 错 。 但 在 这 里 ， 这 样 做 却 是 不 可 能 的 。 我 们 既 不 知道 怎样 
用 54 个 特征 来 描述 科罗拉多 州 的 一 个 从 未 见 过 的 地 块 ， 也 不 知道 如 何 预测 这 种 地 块 上 的 
森林 植被 类 型 。 


相反 ， 我 们 可 以 直接 从 数据 集中 取出 部 分 数据 ， 用 以 评估 所 得 到 的 模型 。 之 前 ， 为 了 评价 保 
留 的 收听 数据 和 模型 预测 之 间 的 一 致 性 ， 我 们 采用 AUC 指标 。 这 里 我 们 采用 同样 的 原理 ， 
不 过 评价 指标 改 为 准确 率 (accuracy) 指标 。 大 部 分 数据 (90%) 会 再 次 用 作 训 练 集 ， 后 再 
我 们 将 看 到 该 训练 集 的 子 集 用 于 交叉 验证 ， 这 个 子 集 就 是 交叉 验证 集 。 剩 下 10% 的 数据 实 
际 上 是 第 三 个 子 集 ， 会 保留 出 来 成 为 一 个 数量 合理 的 测试 集 。 






































val Array(trainData, testData) = data.randomSplit(Array(0.9, 0.1)) 
trainData.cache() 
testData.cache() 


该 数据 集 在 用 于 Spark MLlib 分 类 器 之 前 需要 做 一 些 额外 的 预 处 理 。 输 入 DataFrame 包含 许 
多 列 ， 每 列 对 应 一 个 特征 ， 可 以 用 来 预测 目标 列 。Spark MLlib 要 求 将 所 有 输入 合并 成 一 列 ， 
该 列 的 值 是 一 个 向 量 。 这 个 类 是 线性 代数 中 向 量 的 一 个 抽象 ， 仅 包含 一 些 数字 。 对 于 大 多 数 
的 意图 和 目的 ， 向 量 就 像 是 一 个 简单 的 双 精 度 浮 点 数 数组 。 当 然 ， 有 些 输入 特征 在 概念 上 是 
类 别 型 的 ， 即 使 在 输入 中 它们 都 是 用 数值 表示 的 。 现 在 先 忽略 这 一 点 ， 稍 后 再 讨论 。 
































幸运 的 是 ，VectorAssembler 类 可 以 完成 这 项 工作 : 
import org.apache.spark.mL.feature.VectorAssembLer 


val inputCols = trainData.columns.filter(_ != "Cover_Type") 
val assembLer = new VectorAssembLer() . 
setInputCols(inputCols). 
setOutputCol("featureVector") 


val assembledTrainData = assembler.transform(trainData) 
assembledTrainData.select("featureVector").show(truncate = false) 





,1,2,3,4,5,6,7,8,9,13,15],[1863.0,37.0,17.0,120.0,18.0,90.0,2 ... 
|(54,[0,1,2,5,6,7,8,9,13,18],[1874.0,18.0,14.0,90.0,208.0,209.0,135. ... 
,1,2,3,4,5,6,7,8,9,13,18],[1879.0,28.0,19.0,30.0,12.0,95.0,20 ... 


它 的 关键 参数 是 要 组 合成 特征 向 量 的 那些 列 ， 以 及 包含 特征 向 量 的 新 列 的 名 称 。 这 
里 除了 目标 列 以 外 ， 所 有 其 他 列 都 作为 输入 特征 ， 因 此 产生 的 DataFrame 有 一 个 新 的 
“featureVector” 列 ， 如 上 所 示 。 














输出 看 起 来 不 是 很 像 一 串 数 字 ， 这 是 因为 它 显 示 的 是 向 量 的 原始 表示 ， 也 就 是 Sparse 
Vector 的 实例 ， 这 样 做 可 以 市 省 存储 空间 。 由 于 这 54 个 值 中 的 大 多 数值 都 是 0， 它 仅 存储 
非 零 值 及 其 索引 。 这 个 细节 对 分 类 来 说 无 关 紧 要 。 























VectorAssembler 是 当前 Spark MLlib“ 管 道 ”API 中 的 一 个 Transformer 示例 。VectorAssembler 
可 以 将 一 个 DataFrame 转换 成 另外 一 个 DataFrame， 并 且 可 以 和 其 他 Transformer 组 合成 一 
个 管道 。 在 本 章 后 面 ， 这 些 转换 操作 将 连接 成 一 个 真正 的 管道 。 此 处 我 们 直接 调用 转换 操 
作 ， 这 对 我 们 要 构建 的 第 一 个 决策 树 分 类 模型 已 经 足够 了 。 























import org.apache.spark.ml.classification.DecisionTreeClassifier 
import scala.util.Random 


val classifier = new DecisionTreeClassifier(). 
setSeed(Random.nextLong()). © 
setLabelCol("Cover_Type"). 
setFeaturesCol("featureVector"). 
setpredictionCol("prediction") 


val model = classifier.fit(assembledTrainData) 
println(model.toDebugString) 


DecisionTreeClassificationModel (uid=dtc_29cfe1281b30) of depth 5 with 63 nodes 
If (feature 0 <= 3039.0) 
If (feature 0 <= 2555.0) 
If (feature 10 <= 0.0) 
If (feature 0 <= 2453.0) 
If (feature 3 <= 0.0) 
Predict: 4.0 
ELse (feature 3 > 0.0) 
Predict: 3.0 


@ 使 用 随机 种 子 。 





同样 ， 分 类 器 的 主要 配置 包括 列 名 : 包含 输入 特征 向 量 的 列 和 包含 被 预测 特征 值 的 列 。 
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因为 后 面 我 们 将 把 模型 用 于 预测 新 的 目标 值 ， 所 以 将 模型 命名 为 存储 预测 值 的 列 的 名 称 。 





依据 上 面 模 型 表示 方式 的 输出 信息 ， 我 们 可 以 发 现 模 型 的 一 些 树 结构 。 它 由 一 系列 针对 特 
征 的 风 套 决策 组 成 ， 这 些 决 策 将 特征 值 与 国人 值 相 比较 。( 很 不 幸 ， 由 于 历史 原因 ， 这 里 的 
这 些 特性 只 用 数字 来 引用 ， 而 不 是 按 名 称 引用 。) 











构建 决策 树 的 过 程 中 ， 决 策 树 能 够 评估 输入 特征 的 重要 性 。 也 就 是 说 ， 它 们 可 以 评估 每 个 
输入 特征 对 做 出 正确 预测 的 贡献 值 。 从 模型 中 很 容易 获得 这 个 信息 。 








model.featureImportances.toArray.zip(inputCols). 
sorted.reverse.foreach(println) 


(0.7931809106979147 ,Elevation) 
(0.050122380231328235,Horizontal_Distance_To_Hydrology) 
(0.030609364695664505,Wilderness_Area_0) 
(0.03052094489457567, Soil_Type_3) 
(0.026170212644908816,Hillshade_Noon) 
(0.024374024564392027,Soil_Type_1) 
(0.01670006142176787,Soil_Type_31) 
(0.012596990926899494,Horizontal_Distance_To_Roadways) 
(0.011205482194428473,Wilderness_Area_2) 
(0.0024194271152490235,Hillshade_3pm) 
(0.0018551637821715788 ,HorizontaL_Distance_To_Fire_Points) 
(2.450368306995527E-4,Soil_Type_8) 
(0.0,Wilderness_Area_3) 


这 样 我 们 就 把 列 名 及 其 重要 性 ( 越 高 越 好 ) 关联 成 二 元 组 ， 并 按照 重要 性 从 高 到 低 排 列 输 
出 。Elevation 似乎 是 绝对 重要 的 特征 ， 其 他 的 大 多 数 特 征 在 预测 封面 类 型 时 几乎 没有 任 
何 作用 ! 



































返回 的 结果 DecisionTreeClassificationModel 本 身 就 是 一 个 转换 器 ， 因 为 它 可 以 将 一 个 包含 
特征 向 量 的 DataFrame 转换 成 一 个 包含 特征 向 量 及 其 预测 结果 的 DataFrame。 例 如 ， 看 看 


模型 在 训练 数据 上 的 预测 结果 是 有 帮助 的 ， 可 以 比较 


























下 模型 预测 值 与 正确 的 覆盖 类 型。 


val predictions = model.transform(assembledTrainData) 
predictions.select("Cover_Type", "prediction", "probability"). 
show(truncate = false) 


+---------- +---------- 4 po 
|Cover_Typelprediction|probability 

+---------- +---------- 4 a 
16.0 13.0 |[0.0,0.0,0.03421818804589827,0.6318547696523378，... 
16.0 14.0 |[0.0,0.0,0.043440860215053764,0.283870967741935，... 
16.0 13.0 |[0.0,0.0,0.03421818804589827,0.6318547696523378，... 
16.0 13.0 |[0.0,0.0,0.03421818804589827,0.6318547696523378，... 





有 趣 的 是 ， 输 出 还 包含 了 一 个 “probability” 列 ， 它 给 出 了 模型 对 每 个 可 能 的 输出 的 准确 率 
的 估计 。 可 以 看 出 在 这 些 情况 下 ， 有 儿 个 样本 的 值 可 以 肯定 是 3 而 不 是 1。 


敏锐 的 读者 可 能 已 经 注意 到 了 ， 尽 管 只 有 7 种 可 能 的 结果 ， 而 概率 向 量 实际 上 有 8 个 值 。 
向 量 中 索引 1~7 的 值 分 别 表示 结果 为 1~7 的 概率 。 然 而 ， 索 引 0 也 有 一 个 值 ， 它 总 是 显示 
概率 为 “0.0”。 我 们 可 以 忽略 它 ， 因 为 0 根本 就 不 是 一 个 有 效 的 结果 。 把 这 种 信息 表示 为 
向 量 就 有 这 样 的 小 毛病 ， 值 得 我 们 注意 一 下 。 






































基于 这 段 代 码 的 观察 ， 该 模型 还 欠 火 候 ， 预 测 结果 常常 出 错 。 与 ALS 的 实现 一 样 ， 决 策 树 
分 类 器 的 实现 有 几 个 超 参数 需要 调整 ， 这 段 代 码 中 使 用 的 都 是 默认 值 。 这 里 测试 集 可 用 于 
对 默认 超 参 数 训练 出 的 模型 的 期 望 准 确 率 做 无 偏 估计 。 











MulticlassClassificationEvaluator 能 计算 准确 率 和 其 他 评估 模型 预测 质量 的 指标 。Spark 
MLlib 中 评估 器 的 作用 就 是 以 某 种 方式 评估 输出 DataFrame 的 质量 ，MulticlassClassification 
Evaluator 就 是 评估 器 的 一 个 例子 。 





import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator 


val evaluator = new MulticlassClassificationEvaluator(). 
setLabeLCoL("Cover_Type " ) . 
setpredictionCol("prediction") 


evaluator.setMetricName("accuracy").evaluate(predictions) 


evaluator.setMetricName("f1").evaluate(predictions) 


0.6976371385502989 
0.6815943874214012 


























在 给 出 “label” 列 (目标 ， 或 已 知 的 正确 输出 值 ) 以 及 预测 结果 列 的 列 名 后 ， 评 佑 器 发 现 
这 两 列 有 70% 的 匹配 率 ， 这 就 是 这 个 分 类 器 的 准确 率 了 。 它 可 以 计算 其 他 相关 的 度量 ， 比 
如 了 Fl 值 (https:/Wen.wikipedia.org/wiki/F1_score) 。 准 确 率 在 这 里 被 用 于 评价 分 类 器 。 


























单个 的 准确 率 可 以 很 好 地 概括 分 类 器 输出 的 好 坏 ， 然 而 有 时 候 混 淆 矩阵 (confusion 
matrix) 会 更 有 效 。 混 请 和 矩阵 是 一 个 Yx N 的 表 ，N 代表 可 能 的 目标 值 的 个 数 。 因 为 我 们 
的 目标 值 有 7 个 分 类 ， 所 以 是 一 个 7x7 的 和 矩阵， 每 一 行 代表 数据 的 真实 归属 类 别 ， 每 一 
列 按 顺序 依次 代表 预测 值 。 第 i 行 和 第 j 列 的 条 目 表 示 数 据 中 真正 归属 第 i 个 类 别 却 被 预 
测 为 第 7 个 类 别 的 数据 总 量 。 因 此 ， 正 确 的 预测 是 沿 着 对 角 线 计算 的 ， 而 非 对 角 线 元 素 
代表 错误 预测 。 





























幸运 的 是 ，Spark 提供 了 用 于 计算 混 请 矩阵 的 代码 ;不幸 的 是 ， 这 个 代码 是 基于 操作 RDD 
的 旧版 MLlib API 实现 的 。 不 过 ， 这 并 不 是 什么 大 问题 ，DataFrame 和 Dataset 可 以 很 容易 
地 转换 成 RDD 来 使 用 这 些 旧版 API。 这 边 的 代码 中 ， 用 MulticlassMetrics 去 处 理 包含 预 
测 结 果 的 DataFrame 是 很 合适 的 。 
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import org.apache.spark.mllib.evaluation.MulticlassMetrics 


val predictionRDD = predictions. 


select("prediction", "Cover_Type'"). 


as[(Double,Double)]. ©O@ 
rdd @ 


val multiclassMetrics = new MulticlassMetrics(predictionRDD) 


multiclassMetrics.confusionMatrix 


143125.0 41769.0 164.0 0.0 


65865.0 184360.0 3930.0 102. 
0.0 5680.0 25772.0 674. 
0.0 21.0 1481.0 973. 
87.0 7761.0 648.0 0.0 
0.0 6175.0 8902.0 559. 
8058.0 24.0 50.0 0.0 


@ 转换 成 Dataset。 
@ 转换 成 RDD。 


你 得 到 的 值 可 能 稍 有 不 同 。 
果 稍 有 不 同 。 


构 


造 


9 0.0 5396.0 
9.0 0.0 677.0 

0 0.0 0.0 

.0 0.0 0.0 

9.0 0.0 0.0 

9 0.0 0.0 

0 0.0 10395.0 

决策 树 过 程 中 的 一 些 随机 选项 会 导致 分 类 结 





对 角 线 上 的 次 数 多 是 好 的 。 但 也 确实 出 现 了 一 些 分 类 错误 的 情况 ， 比 如 分 类 器 甚至 没有 将 
任何 一 个 样本 类 别 预 测 为 5。 


当然 


PE 


要 依赖 专门 的 方法 。 


val confusionMatrix = predictions. 
groupBy("Cover_Type"). 
pivot("prediction", (1 to 7)). 
count(). 
na.fill(0.0). © 
orderBy("Cover_Type") 


confusionMatrix.show() 














计算 混 请 和 矩阵 之 类 ， 也 可 以 直接 使 用 DataFrame API 中 一 些 通用 的 操作 ， 而 不 甩 


+---------- +------ +------ +----- +---+---+---+----- 十 
|Cover_Type| 1| 2| 3| 4| 5| 6| 了 | 
+---------- +------ +------ +----- +---+---+---+----- + 
| 1.0|143125| 41769| 164| 0| 0| 0| 5396| 
| 2.0| 65865|184360| 3930|102| 39| 0| 677| 
| 3.0| 0| 5680|257721674| 0| 0| ol 
| 4.0| ol 21| 1481|973| 6| ol ol 





El 





| 5.0| 87| 7761| 648| 60| 69| 0| ol 
| 6.0| 0| 6175| 89021559| 60| 6| | 
| 7.0| 8058| 24| 50| 6| 6| 96116395| 


@ 用 0 赫 换 null。 


微软 Excel 的 用 户 可 能 已 经 发 觉 ， 计 算 混 淆 矩阵 与 计算 透视 表 十 分 相似 。 透 视 表 (https:// 
en.wikipedia.org/wiki/Pivot_table) 对 两 个 维度 上 的 值 进行 分 组 ， 这 些 值 会 变 成 输出 的 行 和 
列 ， 然 后 对 这 些 分 组 进行 计数 之 类 的 聚合 计算 。 许 多 数据 库 都 有 PIVOT 这 个 函数 ，Spark 
SQL 也 支持 PIVOT 函数 。 这 种 方式 更 优雅 、 更 强大 。 





虽然 70% 的 准确 率 听 起 来 还 不 错 ， 但 我 们 还 不 能 立马 看 出 这 个 准确 率 是 优秀 还 是 糟糕 。 作 
为 基准 ， 一 个 朴素 方法 的 准确 率 是 多 少 呢 ? 即使 是 一 个 坏 了 的 时 钟 ， 每 天 也 会 有 两 次 显示 
的 时 间 是 正确 的 。 类 似 地 ， 为 每 个 样本 随便 猜 一 个 类 别 ， 偶 尔 也 能 得 到 正确 答案 。 


按照 类 别 在 训练 集中 出 现 的 比例 来 预测 类 别 ， 我 们 来 构建 一 个 “分 类 器 ”。 举 例 来 说 ， 如 
果 类 型 1 在 训练 集中 占 30%， 那 么 分 类 器 就 有 33% 的 概率 猜测 类 型 为 “1”。 每 次 分 类 的 
准确 率 将 和 一 个 类 型 在 交叉 验证 集中 出 现 的 次 数 成 正比 。 如 果 测 试 集 的 40% 是 植被 类 型 
1， 那 么 全 猜 “1” 就 有 40% 的 准确 率 。 植 被 类 型 1 有 30% x 40%=12% 的 概率 被 猜 对 ， 并 
为 整体 准确 率 贡献 了 12%。 将 所 有 类 别 在 训练 集 和 交叉 验证 集 出 现 的 概率 相 乘 ， 然 后 把 结 
果 相 加 ， 我 们 就 得 到 了 一 个 对 准确 率 的 评估 : 














import org.apache.spark.sqL.DataFrame 


def classProbabilities(data: DataFrame): Array[DoubLe] = { 
val total = data.count() 
data.groupBy("Cover_Type" ) .count(). © 
orderBy("Cover_Type"). @ 
seLect("count" ) .as[DoubLe]. © 
map(_ / total). 
collect() 


val trainpriorprobabilities = classProbabilities(trainData) 

val testpriorprobabilities = classProbabilities(testData) 

trainpriorprobabilities.zip(testPpriorprobabilities).map { @ 
case (trainprob, cvProb) => trainProb * cvProb 

}.sum 


0.3771270477245849 
@ 计算 数据 中 每 个 类 别 的 样本 数 。 
@ 对 类 别 的 样本 数 进行 排序 。 
@@ 转换 成 Dataset。 
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@ 对 训练 集 和 测试 集中 键 值 对 的 乘积 求 和 。 


随机 猜测 的 准确 率 为 37%， 所 以 我 们 前 面 得 到 70% 的 准确 率 看 起 来 还 不 错 。 但 是 这 个 
70% 的 准确 率 是 用 默认 超 参数 取得 的 。 如 果 在 决策 树 构建 过 程 中 试 试 超 参数 的 其 他 值 ， 准 


确 率 还 可 以 提高 。 


4.8 决策 树 的 超 参数 

第 3 章 中 ，ALS 算法 提供 了 几 个 超 参 数 。 我 们 先 构 造 超 参 数 取 不 同 值 时 的 不 同 组 合 的 模 
型 ,然后 用 某 个 指标 评估 每 个 组 合 结果 的 质量 ， 通 过 这 种 方式 来 选择 超 参 数值 。 这 里 我 们 
采用 相同 的 过 程 ， 但 指标 由 AUC 改 为 多 元 分 类 准确 率 。 这 里 控制 决策 树 选 择 过 程 的 超 参 
数 也 很 不 一 样 ， 分 别 为 最 大 深度 、 最 大 桶 数 、 不 纯 性 度量 和 最 小 信息 增益 。 


最 大 深度 只 是 对 决策 树 的 层 数 做 出 限制 ， 它 是 分 类 器 为 了 对 样本 进行 分 类 所 做 的 一 连 串 判 
断 的 最 大 次 数 。 限 制 判断 次 数 有 利于 避免 对 训练 数据 产生 过 拟 合 ， 这 一 点 我 们 在 前 面 宠物 
店 的 例子 中 已 有 说 明 。 


决策 树 算 法 负责 为 每 层 生 成 可 能 的 决策 规则 ， 比 如 在 宠物 店 示例 中 ， 这 些 决策 规则 类 似 
“重量 > 100” 或 者 “重量 > 500”。 决 策 总 是 采用 相同 形式 ， 对 数值 型 特征 ， 决 策 采 用 特征 
> 值 的 形式 ， 对 类 别 型 特征 ， 决 策 采 用 特征 在 ( 值 1, 值 2,…) 中 的 形式 。 因 此 ， 要 尝试 的 
决策 规则 集合 实际 上 是 可 以 租 入 决策 规则 中 的 一 系列 值 。Spark MLlib 的 实现 把 决策 规则 集 
合 称 为 “ 桶 ”(bin)。 桶 的 数目 越 多 ,需要 的 处 理 时 间 越 多 ， 但 找到 的 决策 规则 可 能 更 优 。 


什么 因素 会 促使 产生 好 的 决策 规则 ? 直观 上 讲 ， 好 的 决策 规则 应 该 通过 目标 类 别 值 对 样本 
做 出 有 意义 的 划分 。 比 如 ， 如 果 一 个 规则 将 Covtype 数据 集 划 分 为 两 个 子 集 ， 其 中 一 个 子 
集 的 样本 全 部 属于 类 别 1-3， 第 二 个 子 集中 的 样本 则 都 属于 和 类 别 4~7， 那 么 它 就 是 一 个 
好 规则 ， 因 为 这 个 规则 清楚 地 把 一 些 类 别 和 其 他 类 别 分 开 。 如 果 样 本 集 用 一 个 决策 规则 划 
分 ， 划 分 前 后 每 个 集合 各 类 型 的 不 纯 性 程度 没有 改善 ， 那 么 这 个 规则 就 没什么 价值 。 沿 着 
该 决策 规则 的 分 支 走 下 去 ， 每 个 目标 类 别 的 可 能 取 值 的 分 布 仍然 是 一 样 的， 因此 实际 上 它 
在 构造 可 靠 的 分 类 器 方面 没有 任何 进步 。 





















































































































































换 句 话说 ， 好 规则 把 训练 集 数据 的 目标 值 分 为 相对 是 同类 或 “ 纯 ”(pure) 的 子 集 。 选 择 
最 好 的 规则 也 就 意味 着 最 小 化 规则 对 应 的 两 个 子 集 的 不 纯 性 (impurity)。 不 纯 性 有 两 种 
常用 的 度量 方式 : Gini 不 纯度 (https://en.wikipedia.org/wiki/Decision_tree_learning#Gini 
impurity) 或 们 (https:Wen.wikipedia.org/wiki/Entropy_(information_theory)) 。 














Gini 不 纯度 直接 和 随机 猜测 分 类 器 的 准确 率 相 关 。 在 每 个 子 集中 ， 它 就 是 对 一 个 随机 挑选 
的 样本 进行 随机 分 类 时 分 类 错误 的 概率 (随机 挑选 样本 和 随机 分 类 时 要 参照 子 数据 集 的 类 
别 分 布 )。 这 就 是 用 1 减 去 每 个 类 别 的 比例 与 自身 的 乘积 之 和 。 假 设 子 数据 集 包 含 N 个 类 











别 的 样本 ，p; 是 类 别 i 的 样本 所 占 比 例 ， 于 是 可 以 得 到 如 下 Gini 不 纯度 公式 .: 


N 


1,(p)=1- Dp 
i=] 


如 果子 数据 集中 所 有 样本 都 属于 一 个 类 别 ， 则 Gini 不 纯度 的 值 为 0， 因为 这 个 子 数据 集 完 
全 是 “ 纯 ” 的 。 当 子 数据 集中 的 样本 来 自 个 不 同 的 类 别 时 ，Gini 不 纯度 的 值 大 于 0， 并 
且 在 每 个 类 别 的 样本 数 都 相同 时 达到 最 大 ， 也 就 是 最 不 纯 的 情况 。 


炉 是 另 一 种 度量 不 纯 性 的 方式 ， 它 来 源 于 信息 论 。 解 释 信 的 本 质 更 困难 ， 但 炉 代表 了 子 集中 
目标 取 值 集合 对 子 集中 的 数据 所 做 的 预测 的 不 确定 程度 。 如 果子 集 只 包含 一 个 类 别 ， 则 是 完 
全 确定 的 ， 炉 为 0。 相 反 ， 如 果 一 个 子 集 包含 了 所 有 可 能 的 类 别 ， 那 么 对 该 子 集 进行 预测 有 
很 大 的 不 确定 性 ， 因 为 数据 的 目标 值 是 各 种 各 样 的 。 这 就 意味 着 这 个 子 集 有 较 大 的 箭 。 因 
此 ， 较 小 的 炉 ， 就 像 较 小 的 Gini 不 纯度 一 样 ， 是 比较 好 的 。 粒 可 以 用 以 下 箭 计算 公式 定义 : 


























LOD=> os --> Pog() 











有 意思 的 是 ， 不 确定 性 是 有 单位 的 。 由 于 取 自 然 对 数 (以 。 为 底 )， 炉 的 单 
位 是 纳 特 (nat)。 相 对 于 以 e 为 底 的 纳 特 ， 我 们 更 熟悉 它 对 应 的 比特 〈 以 2 
为 底 取 对 数 即 可 得 到 )。 它 实际 上 度量 的 是 信息 ， 因 此 在 使 用 信 的 决策 树 中 ， 
我 们 也 常 说 决策 规则 的 信息 增益 。 
































不 同 的 数据 集 上 对 于 挑选 好 的 决策 规则 方面 ， 这 两 个 度量 指标 各 有 千秋 。Spark 的 实现 默 
认 采 用 Gini 不 纯度 。 


最 后 ， 最 小 信息 增益 是 指 一 种 超 参数 ， 它 会 导致 最 小 信息 增益 ， 或 最 小 不 纯度 降低 。 在 改 
善 子 集合 的 不 纯 性 方面 不 达标 的 决策 规则 将 不 被 采用 。 与 通过 减少 最 大 深度 一 样 ， 这 也 有 
利于 避免 过 拟 合 ， 因 为 对 训练 集 没有 什么 区 分 度 的 决策 规则 ， 实 际 上 对 区 分 将 来 的 数据 也 
没什么 帮助 。 


4.9 决策 树 调 优 


采用 哪个 不 纯 性 度量 所 得 到 的 决策 树 的 准确 率 更 高 ， 或 者 最 大 深度 或 桶 数 取 多 少 合适 ， 从 
数据 上 看 ， 回 答 这 些 问题 是 困难 的 。 幸 运 的 是 ， 我 们 可 以 让 Spark 来 尝试 这 些 值 的 许多 组 
合并 报告 结果 ， 就 像 第 3 章 所 做 的 那样 。 
首先 ， 有 必要 构建 一 个 管道 ， 用 于 封装 与 上 面相 同 的 两 个 步骤。 创建 VectorAssembler 和 


DecisionTreeClassifier， 然 后 将 这 两 个 Transformer 串 起 来 ， 我 们 就 可 以 得 到 一 个 单独 的 
PipeLine 对 象 ， 这 个 Pipeline 对 象 可 以 将 前 面 的 两 个 操作 表示 成 一 个 : 
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import org.apache.spark.ml.Pipeline 


val inputCols = trainData.columns.filter(_ != "Cover_Type") 
val assembler = new VectorAssembler(). 
setInputCols(inputCols). 
setOutputCol("featureVector") 


val classifier = new DecisionTreeClassifier(). 
setSeed(Random.nextLong() ) . 
setLabelCol("Cover_Type"). 
setFeaturesCol("featureVector"). 
setpredictionCol("prediction") 


val pipeline = new Pipeline().setStages(Array(assembler, classifier)) 
当然 ， 管 道 可 以 更 长 更 复杂 ， 但 用 起 来 还 是 一 样 方便 。 现 在 ， 我 们 还 可 以 定义 使 用 Spark 


ML API 内 建 支持 的 ParamGridBuilder 来 测试 超 参数 的 组 合 。 现 在 需要 定义 评价 指标 一 一 
什么 样 的 超 参 数 才 是 “最 好 的 "。 这 里 再 一 次 用 到 MulticlassClassificationEvaluator。 








import org.apache.spark.ml.tuning.ParamGridBuilder 


val paramGrid = new ParamGridBuilder(). 
addGrid(classifier.impurity, Seq("gini", "entropy")). 
addGrid(classifier.maxDepth, Seq(1, 20)). 
addGrid(classifier.maxBins, Seq(40, 300)). 
addGrid(classifier.minInfoGain, Seq(0.0, 0.05)). 
build() 


val multiclassEval = new MulticlassClassificationEvaluator(). 
setLabelCol("Cover_Type"). 
setPpredictionCol("prediction"). 
setMetricName("accuracy") 





这 意味 着 对 4 个 超 参 数 来 说 ， 每 个 超 参数 的 两 个 值 都 要 构建 和 评估 一 个 模型 ， 共 计 16 种 
超 参数 组 合 ， 会 训练 出 16 个 模型 ， 并 使 用 多 分 类 准确 率 对 这 些 模 型 进行 评估 。 最 后 ， 
TrainValidationSplit 将 这 些 组 件 拼 在 一 起 ， 形 成 一 个 管道 。 这 个 管道 可 以 构建 模型 、 模 型 评 
估 指 标 并 尝试 不 同 的 超 参数 ， 然 后 在 训练 数据 上 使 用 模型 评价 指标 对 每 个 模型 进行 评估 。 值 得 
注意 的 是 ， 这 里 也 可 以 用 CrossValidator 执行 完整 的 大 路 交叉 验证 ， 但 是 要 额外 付出 大 倍 
的 代价 ， 并 且 在 大 数据 的 情况 下 意义 不 大 。 所 以 在 这 里 TrainValidationSplit 就 够 用 了 : 

















import org.apache.spark.ml.tuning.TrainValidationSplit 


val validator = new TrainValidationSplit(). 
setSeed(Random.nextLong()). 
setEstimator(pipeline). 
setEvaluator(multiclassEval). 
setEstimatorParamMaps(paramGrid). 
setTrainRatio(0.9) 


val validatorModel = validator.fit(trainData) 








依 硬 件 情 况 而 定 ， 这 段 代 码 将 花费 几 分 钟 或 更 和 久 的 时 间 ， 因 为 需要 构建 并 评估 许多 
模型 。 需 要 注意 的 是 ， 参 数 trainRatio 被 设置 为 0.9， 这 意味 着 训练 数据 实际 上 被 
TrainValidationSplit 划分 成 90% 与 10% 人 前 面 90% 的 数据 将 用 于 训练 每 个 
模型 ， 剩 下 的 10% 的 数据 将 作为 交叉 验证 集 对 模型 进行 评估 。 如 果 它 已 经 拿 出 了 一 些 数 据 
用 于 评估 模型 ， 那 么 我 们 为 什么 还 要 取出 10% 的 原始 数据 构建 一 个 测试 集 呢 ? 


如 果 说 交 又 验证 集 的 目的 是 评估 适合 训练 集 的 参数 ， 那 么 测试 集 的 目的 是 评估 适合 交 又 验 
证 集 的 超 参数 。 也 就 是 说 ， 测 试 集 保证 了 对 最 终 选 定 的 超 参 数 及 模型 准确 率 的 无 偏 估计 。 


假如 这 个 程序 人 能 在 交叉 验证 集 上 达到 90% 的 准确 率 ， 那 么 期 望 它 在 未 来 的 
数据 上 达到 90% 准 的 。 但 是 ， 模 型 在 构建 过 程 中 还 有 一 个 随机 元 素 。 最 好 的 
模型 和 评估 结果 可 能 还 需要 一 点 儿 运 气 的 成 分 ， 因 此 准确 率 评估 可 能 有 一 些 乐观 。 换 句 话 
说 ， 超 参数 也 可 能 有 过 拟 合 现象 。 


要 想 真 正 评 估 这 个 最 佳 模型 在 将 来 的 样本 上 的 表现 ， a 
行 评估 。 但 是 ， 我 们 也 需要 避免 使 用 在 评估 环节 中 用 过 的 交叉 验证 集 样本 。 这 也 就 是 需 
把 第 三 个 子 集 即 测试 集 留 在 一 边 的 原因 。 


validator 的 结果 包含 它 找到 的 最 优 模型 。 该 模型 本 身 是 validator 所 能 找到 的 总 体 最 优 管道 
的 一 种 表示 , 这 一 点 可 以 从 我 们 提供 的 一 个 管道 实例 看 出 。 为 了 知道 DecisionTreeClassifier 
选择 的 参数 , 我 们 需要 手动 从 结果 PipelineModel 中 提取 DecisionTreeClassificationModel 的 
实例 ， 这 是 管道 的 最 后 一 步 了 。 
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import org.apache.spark.ml.PipelineModel 


val bestModel = validatorModel.bestModel 
bestModel.asInstanceOf[PipelineModel].stages.last.extractParamMap 


De 


dtc_9136220619b4- 
dtc_9136220619b4- 
dtc_9136220619b4- 
dtc_9136220619b4- 
dtc_9136220619b4- 
dtc_9136220619b4- 
dtc_9136220619b4- 
dtc_9136220619b4- 
dtc_9136220619b4- 
dtc_9136220619b4- 
dtc_9136220619b4- 
dtc_9136220619b4- 
dtc_9136220619b4- 
dtc_9136220619b4- 


cacheNodeIds: false, 
checkpointInterval: 10， 
featuresCol: featureVector, 
impurity: entropy, 

LabeLCoL: Cover_Type, 
maxBins: 40, 

maxDepth: 20, 

maxMemoryInMB: 256, 
minInfoGain: 0.0， 
minInstancesPerNode: 1， 
predictionCol: prediction, 
probabilityCol: probability, 
rawPredictionCol: rawPrediction， 
seed: 159147643 


这 包含 了 很 多 拟 合 模型 的 信息 ， 但 它 也 告诉 我 们 ,“ 粒 ”作为 不 纯度 的 度量 是 最 有 效 的 ， 
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最 大 深度 20 比 1 好 ， 也 在 我 们 意料 之 中 。 最 好 的 模型 仅 拟 合 到 40 个 桶 〈bin) ， 这 一 点 倒 可 
能 让 人 有 些 意外 ， 但 这 也 可 能 意味 着 40 个 桶 已 经 “足够 好 了 ”， 而 不 是 说 拟 合 到 40 个 桶 比 
300 个 桶 “更 好 ”。 最 后 ，minInfoGain 的 值 为 6， 这 上 比 不 为 零 的 最 小 值 要 更 好 ， 因 为 这 可 能 
意味 着 模型 更 容易 欠 拟 合 (underfit) ， 而 不 是 过 拟 合 (overfit)。 
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你 可 能 想 知道 ， 是 否 有 可 能 得 到 每 一 种 超 参 数组 合 训练 出 来 的 模型 的 准确 率 。 超 参数 和 评 
佑 结果 分 别 用 getEstimatorParamMaps 和 validationMetrics 获得 。 将 二 者 组 合 起 来 ， 我 们 
就 可 以 按 指标 排序 并 显示 所 有 参数 组 合 : 





























val validatorModel = validator.fit(trainData) 


val paramsAndMetrics = validatorModel.validationMetrics. 
zip(validatorModel .getEstimatorParamMaps).sortBy(-_._1) 


paramsAndMetrics.foreach { case (metric, params) => 
println(metric) 
println(params) 
println() 


0.9138483377774368 


{ 
dtc_3e3b8bb692d1-impurity: entropy， 
dtc_3e3b8bb692d1-maxBins: 40， 
dtc_3e3b8bb692d1-maxDepth: 20， 
dtc_3e3b8bb692d1-minInfoaain: 0.0 

} 

0.9122369506416774 

{ 
dtc_3e3b8bb692d1-impurity: entropy， 
dtc_3e3b8bb692d1-maxBins: 300， 
dtc_3e3b8bb692d1-maxDepth: 20， 
dtc_3e3b8bb692d1-minInfoGain: 0.0 


这 个 模型 在 交叉 验证 集中 达到 的 准确 率 是 多 少 ? 最后， 在 测试 集中 能 达到 什么 样 的 准确 率 ? 





validatorModel.validationMetrics.max 
multiclassEval.evaluate(bestModel.transform(testData)) © 


0.9138483377774368 
0.9139978718291971 


@ bestModel 是 一 个 完整 的 管道 。 





两 个 结果 都 是 91%。 交 又 验证 集 上 的 评估 结果 常常 能 提供 不 错 的 起 点 。 事 实 上 ， 测 试 集 通 








常会 有 与 交叉 验证 集 相 似 的 表现 。 


现在 该 重新 回顾 一 下 过 拟 合 的 问题 了 。 如 前 所 述 ， 我 们 可 能 构造 这 样 一 棵 决策 树 : 它 的 深 
度 非 常 深 ,非常 复杂 ， 它 能 很 好 地 其 至 是 完美 拟 合 给 定 的 训练 样本 ,但 不 能 把 这 种 准确 率 
推广 到 其 他 样本 上 ， 因 为 它 过 于 紧密 地 拟 合 了 训练 样本 中 的 细微 特质 和 噪声 。 过 拟 合 问题 
不 只 是 在 决策 树 算法 中 存在 ， 而 是 大 多 数 机 器 学 习 算 法 普遍 存在 的 问题 。 


当 决 策 树 有 过 拟 合 问题 时 ， 在 与 模型 拟 合 相同 的 训练 数据 上 它 的 准确 率 很 高 ， 但 在 其 他 样 
本 上 准确 率 很 低 。 在 本 章 示 例 中 ， 最 终 模型 在 其 他 新 样本 上 的 准确 率 大 约 为 91%。 当 然 ， 
通过 trainData， 我 们 就 能 轻松 地 在 训练 数据 上 评估 准确 率 。 这 时 的 准确 率 大 约 为 95%。 


差别 不 是 很 大 ,但 也 显示 决策 树 在 一 定 程度 上 存在 对 训练 数据 的 过 拟 合 。 减 小 最 大 深度 可 
能 会 使 过 拟 合 问题 有 所 改善 。 


4.10 重 谈 类 别 型 特征 

目前 为 止 ， 上 述 代 码 示例 将 所 有 输入 特征 隐 式 地 作为 数值 型 处 理 (尽管 “Cover_ Type” 被 
编码 为 数字 ， 实 际 上 被 正确 地 视 为 类 别 型 特征 )。 这 并 不 是 完全 错误 的 ， 因 为 这 里 的 类 别 
型 特征 已 经 用 one-hot 方式 编码 成 了 多 个 二 元 的 0/1 值 。 把 这 些 单个 的 特征 当 作 数值 型 来 处 
理 并 没有 什么 问题 ， 因 为 任何 基于 数值 型 特征 的 决策 规则 都 需要 选择 0 或 1 作为 其 国 值 ， 
并 且 因 为 所 有 的 国 值 都 是 0 或 1， 所 以 都 是 等 价 的 。 

当然 ， 这 种 编码 迫使 决策 树 算法 在 底层 要 单独 考虑 类 别 型 特征 的 每 一 个 值 。 因 为 像 土壤 类 
型 这 样 的 特征 被 分 解 成 了 许多 特征 ， 而 且 决 策 树 单独 处 理 这 些 特征 ， 所 以 就 更 难 将 这 些 相 
关 的 土壤 类 型 信息 关联 起 来 。 
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例如 ，9 种 不 同 的 土壤 类 型 实际 上 是 Leighcan 族 中 的 一 部 分 ， 而 决策 树 应 该 利用 它们 之 间 
的 这 种 关联 。 如 果 土 壤 类 型 被 编码 为 一 个 具有 40 个 值 的 单一 类 别 型 特征 ， 那 么 树 就 可 以 
用 于 直接 描述 “土壤 类 型 是 否 是 9 个 Leighton 族 类 型 之 一 "。 然 而 ， 当 被 编码 为 40 个 特征 
时 ， 要 取得 相同 效果 ， 树 就 必须 学 习 一 个 决策 序列 ， 其 中 包括 9 个 关于 土壤 类 型 的 决策 ， 
这 种 表现 形式 可 能 会 得 到 更 好 、 更 高 效 的 决策 。 


然而 ， 用 40 个 数值 型 特征 表示 一 个 带 40 个 值 的 类 别 型 特征 ， 将 导致 内 存 使 用 量 增 加 ， 同 
时 处 理 速度 也 会 变 慢 。 















































如 果 取 消 数 据 集 已 经 完成 的 one-hot 编码 ， 情 况 会 怎样 ? 例如 ，4 列 编码 的 充 原 类 型 可 以 替 
换 为 1 列 用 数字 0~3 编码 的 方式 ， 像 “Cover_Type” 列 一 样 。 








import org.apache.spark.sql.functions._ 


def unencodeOneHot(data: DataFrame): DataFrame = { 
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val wildernessCols = (0 until 4).map(i => s"Wilderness Area_ $i").toArray 


val wildernessAssembler = new VectorAssembler(). 
setInputCols(wildernessCols). 
setOutputCol("wilderness") 


val unhotUDF = udf((vec: Vector) => vec.toArray.indexof(1.0) .toDoubLe) ©@ 


val withWilderness = wildernessAssembler.transform(data). 
drop(wildernessCols:_*). 名 
withColumn("wilderness", unhotUDF($"wilderness")) © 


val soilCols = (0 until 40).map(i => s"Soil_ Type_$i").toArray 


val soilAssembler = new VectorAssembler(). 
setInputCols(soilCols). 
setOutputCol("soil") 


soilAssembler.transform(withWilderness). 
drop(soilCols:_*). 
withColumn("soil", unhotUDF($"soil")) 
} 


@ 注意 用 户 定义 函数 的 定义 。 

@ 删除 不 再 需要 的 one-hot 列 。 

@ 用 数字 编码 的 列 赫 换 其 同名 列 。 

这 里 我 们 用 VectorAssembler 将 4 个 充 野 类 型 列 与 40 个 土壤 类 型 列 组 合成 两 个 向 量 列 。 这 
些 向 量 除了 一 个 位 置 上 的 值 是 1， 甚 余 的 都 是 0。DataFrame 没有 提供 直接 完成 这 个 任务 的 


国 数 ， 因 此 我 们 必须 定义 自己 的 UDF 来 操作 这 些 列 。 这 个 UDF 将 这 两 个 新 列 变 成 了 我 们 
所 需 类 型 的 值 。 




















从 这 里 开始 ， 我 们 都 可 以 使 用 与 上 面 几 乎 相同 的 过 程 ， 来 调整 构建 在 该 数据 上 的 决策 树 模 
型 的 超 参 数 ， 并 选择 和 评估 最 优 的 模型 。 但 是 有 一 个 重要 的 不 同 点 ， 两 个 新 的 数值 列 没有 
任何 信息 表明 它们 实际 上 是 类 别 型 特征 值 的 编码 。 把 它们 当 作 数 值 型 是 错误 的 ， 因 为 它们 
的 大 小 是 没有 意义 的 。 然 而 ， 这 种 处 理 方式 似乎 还 能 奏效 ， 好 像 什么 事情 都 没 发 生 一 样 ， 
不 过 这 些 特 征 的 信息 可 能 在 处 理 过 程 中 就 完全 丢失 了 。 



































Spark MLlib 内 部 可 以 存储 每 列 额 外 的 元 数据 信息 。 这 些 数据 的 细节 通常 对 调用 者 来 说 是 隐 
藏 的 ， 诸 如 列 是 否 对 类 别 型 特征 值 编码 ， 以 及 类 别 型 编码 有 多 少 不 同 的 值 。 为 了 添加 这 些 
元 数据 ， 有 必要 通过 VectorIndexer 存 入 这 些 数据 。VectorIndexer 的 目标 是 将 输入 变 成 有 
正确 标签 的 类 别 型 特征 列 。 尽 管 我 们 已 经 做 了 很 多 工作 来 将 类 别 型 特征 转换 为 从 0 开始 的 
索引 值 ，VectorIndexer 将 会 负责 生成 元 数据 。 














需要 将 以 下 步骤 加 入 PtpeLine: 





import org.apache.spark.mL.feature.VectorIndexer 


val inputCols = unencTrainData.columns.filter(_ != "Cover_Type") 
val assembler = new VectorAssembler(). 

setInputCols(inputCols). 

setOutputCol("featureVector") 


val indexer = new VectorIndexer(). 
setMaxCategories(40). © 
setInputCol("featureVector"). 
setOutputCol("indexedVector") 


val classifier = new DecisionTreeClassifier(). 
setSeed(Random.nextLong()). 
setLabelCol("Cover_Type"). 
setFeaturesCol("indexedVector"). 
setpredictionCol("prediction") 


val pipeline = new Pipeline().setStages(Array(assembler, indexer, classifier)) 


@ 三 40， 因 为 土壤 类 型 有 40 个 值 。 


该 方法 假定 训练 集中 类 别 型 特征 的 所 有 可 能 值 出 现 了 至 少 一 次 。 也 就 是 说 ， 只 有 当 所 有 4 
个 土壤 值 和 所 有 40 个 荒原 类 型 值 都 出 现在 训练 集中 时 ， 让 所 有 可 能 值 都 有 上 映射， 这 个 方 
法 才能 正常 工作 。 在 本 数据 集中 ， 这 些 假设 正好 都 满足 ， 但 是 在 小 的 训练 数据 集中 可 能 就 
不 是 这 样 了 ， 某 一 类 标签 可 能 很 少 出 现 。 在 这 些 情况 下 ， 可 能 需要 手动 创建 并 添加 一 个 
VectorIndexerModeL， 并 手动 提供 完整 的 值 映 射 。 

















除 此 以 外 ， 过 程 与 之 前 是 一 样 的。 你 会 发 现 它 选 择 了 一 个 类 似 的 最 优 模型 ， 但 是 在 测试 集 
上 的 准确 率 却 有 93%。 将 类 别 型 特征 按 其 实际 类 型 处 理 后 ,分 类 器 的 准确 率 提高 了 近 2%。 


4.11 随机 决策 森林 


如 有 果 你 一 步 步 运行 本 章 示例 代码 ， 可 能 已 经 注意 到 运行 结果 和 本 书 代码 中 给 出 的 结果 稍 有 
不 同 。 这 是 在 决策 树 构建 过 程 中 由 随机 因素 造成 的 ， 在 决定 采用 什么 数据 和 尝试 哪些 决策 
规则 时 都 有 这 些 随 机 因素 的 影响 。 


在 决策 树 的 每 层 ， 算 法 并 不 会 著 虑 所 有 可 能 的 决策 规则 。 如 有 果 在 每 层 上 都 要 考虑 所 有 可 能 
的 决策 规则 ， 算 法 的 运行 时 间 将 无 法 想象 。 对 一 个 及 个 取 值 的 类 别 型 特征 ， 总 共有 2 - 
2 个 可 能 的 决策 规则 ( 除 空 集 和 全 集 以 外 的 所 有 子 集 )。 即 使 对 于 一 个 一 般 大 的 N， 这 也 将 
创建 数 十 亿 候 选 决策 规则 。 






























































相反 ， 决 策 树 使 用 一 些 启 发 式 策略 ， 来 决定 哪些 是 需要 实际 考虑 的 少数 规则 。 在 选择 规则 
的 过 程 中 也 涉及 一 些 随机 性 ， 每 次 只 考虑 随机 选择 少数 特征 ， 而 且 只 考虑 训练 数据 中 一 个 
随机 子 集 。 在 牺牲 一 些 准 确 率 的 同时 换 回 了 速度 的 大 幅 提 升 ， 但 也 意味 着 每 次 决策 树 算法 
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构造 的 树 都 不 相同 。 这 是 件 好 事 。 


这 也 能 解释 为 何 集体 的 智慧 常常 比 个 体 预 测 要 更 准确 。 为 了 说 明 问 题 ， 我 们 来 做 个 快速 测 
验 : 伦敦 运营 的 黑色 出 租车 数量 有 和 多少? 


请 猜 一 下 ， 先 不 要 偷 看 答案 。 


正确 答案 是 约 19 000， 我 猜 10 000， 这 离 正确 答案 差 了 很 多 。 因 为 我 猜 的 数 比 较 小 ， 所 以 
你 猜 的 可 能 比 我 大 ， 这 样 我 们 平均 一 下 就 可 能 更 准确 了 。 这 里 貌似 又 有 点 儿 “ 趋 均值 回 
”的 味道 了 。 我 随便 问 了 办 公 室 里 的 13 个人， 大 家 的 平均 值 是 11 170， 这 个 答案 确实 
要 更 接近 正确 答案 。 


要 取得 这 种 效应 ， 关 键 是 每 个 人 猜 的 时 候 要 独立 ， 互 不 影响 。( 你 没 偷 看 答案 ， 是 吧 ? ) 
如 果 大 家 事先 都 已 经 统一 过 意见 并 用 同一 个 方法 猜 ， 这 个 练习 就 没有 意义 了 ， 因 为 大 家 猪 
的 答案 都 一 样 ， 而 且 这 个 相同 的 答案 可 能 错 得 离谱 。 如 果 在 你 猜 之 前 ， 我 把 我 的 情况 告诉 
你 ， 这 会 影响 你 的 猜测 ， 那 么 咱 俩 的 平均 数 可 能 并 不 会 更 准确 ， 其 至 会 更 糟 。 


基于 上 述 考虑 ， 树 应 该 不 止 有 一 棵 ， 而 是 有 很 多 棵 ， 每 一 棵 都 能 对 正确 目标 值 给 出 合理 、 
独立 且 互 不 相同 的 估计 。 这 些 树 的 集体 平均 预 负 应 该 比 任 一 个 体 预测 更 接近 正确 答案 。 
正 是 由 于 决策 树 构建 过 程 中 的 随机 性 ， 才 有 了 这 种 独立 性 ， 这 就 是 随机 决策 森林 的 关键 
所 在 。 


构建 多 棵 决策 树 的 方式 注入 了 随机 因素 ， 每 棵 树 使 用 了 数据 的 一 个 不 同 的 随机 子 集 ， 其 至 
使 用 随机 的 特征 子 集 。 这 样 得 到 的 森林 在 整体 上 就 不 那么 容易 产生 过 拟 合 。 如 果菜 个 特征 
包含 噪声 数据 ， 或 只 针对 训练 集 有 预测 性 ， 则 这 种 预测 性 是 有 误导 性 质 的 。 采 用 随机 森林 
后 大 多 数 树 在 大 多 数 时 候 将 因此 不 会 考虑 这 个 问题 特征 。 大 多 数 的 树 将 不 会 拟 合 噪声 ， 因 
此 它们 的 “票数 ”将 超过 那些 拟 合 噪声 的 树 。 
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随机 决策 森林 的 预测 只 是 所 有 决策 树 预测 的 加 权 平 均 。 对 于 类 别 型 目标 ， 这 就 是 得 票 最 多 
的 类 别 ， 或 有 决策 树 概率 平均 后 的 最 大 可 能 值 。 随 机 决策 森林 和 决策 树 一 样 也 支持 回归 问 
题 ， 这 时 森林 做 出 的 预测 就 是 每 棵 树 预测 值 的 平均 。 

虽然 随机 决策 森林 是 一 个 更 加 强大 且 更 加 复杂 的 分 类 技术 ， 但 好 在 使 用 管道 的 方式 和 本 章 之 


前 论述 的 并 没有 什么 差异 。 只 需要 使 用 RandomForestClassifier 赫 代 DecistionTreeCLassifier， 
后 面 采用 同样 的 处 理 方式 。 想 要 使 用 随机 森林 ， 之 前 的 代码 和 API 就 够 用 了 。 
































import org.apache.spark.ml.classification.RandomForestClassifier 


val classifier = new RandomForestClassifier(). 
setSeed(Random.nextLong()). 
setLabelCol("Cover_Type"). 
setFeaturesCol("indexedVector"). 
setPpredictionCol("prediction") 
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请 注意 ， 这 个 分 类 器 有 另外 一 个 超 参数 : 要 构建 的 决策 树 的 个 数 。 与 超 参 数 naxBins 一 样 ， 
在 某 个 临界 点 之 前 ， 该 值 越 大 应 该 就 能 获得 越 好 的 效果 。 然 而 ， 代 价 是 构造 多 棵 决策 树 的 
时 间 比 建造 一 棵 的 时 间 要 长 很 多 倍 。 

从 类 似 的 调 优 过 程 得 到 的 最 优 随机 决策 森林 模型 ， 其 准确 率 在 之 前 已 经 提高 约 2% 的 基础 上 ， 又 
提高 到 95%。 也 就 是 说 ， 与 之 前 构建 的 最 优 的 决策 树 相 比 ， 错 误 率 降 低 了 28% 一 一 从 7% 降 到 了 
5%。 如 果 对 模型 进一步 调 优 ， 结 果 可 能 还 会 更 好 。 


























顺便 说 一 句 ， 此 时 我 们 对 特征 的 重要 性 的 理解 更 准确 了 : 





import org.apache.spark.ml.classification.RandomForestClassificationModel 


val forestModel = bestModel.asInstanceOf[PipelineModel]. 
stages.last.asInstanceOf[RandomForestClassificationModel] 


forestModel .featureImportances.toArray.zip(inputCols). 
sorted.reverse.foreach(println) 


(0.28877055118903183,Elevation) 
(0.17288279582959612 ,soiL) 

(0.12105056811661499 ,HorizontaL_Distance_To_Roadways) 
(0.1121550648692802 ,Horizontal_Distance_To_Fire Points) 
(0.08805270405239551,wilderness) 
(0.04467393191338021,Vertical_Distance_To_Hydrology) 
(0.04293099150373547,Horizontal_Distance_To_Hydrology) 
(0.03149644050848614,Hillshade_Noon) 
(0.028408483578137605 ,HLLLshade_9am) 
(0.027185325937200706 ,Aspect) 
(0.027075578474331806,Hillshade_3pm) 
(0.015317564027809389 ,Slope) 


在 大 数据 的 背景 下 ， 随 机 决策 森林 非常 有 吸引 力 ， 因 为 决策 树 往往 是 独立 构造 的 ， 诸 如 
Spark 和 MapReduce 这 样 的 大 数据 技术 本 质 上 适合 数据 并 行 问题 。 也 就 是 说 ， 总 体 答案 的 每 
个 部 分 可 以 通过 在 部 分 数据 上 独立 计算 来 完成 。 随 机 决策 森林 中 决策 树 可 以 并 且 应 该 只 在 特 
征 子 集 或 输入 数据 子 集 上 进行 训练 ， 基 于 这 个 事实 ， 决 策 树 构 造 的 并 行 化 就 很 简单 了 。 


4.12 ”进行 预测 


构建 分 类 器 虽然 有 趣 且 简单 ， 但 它 不 是 最 终 目的 。 我 们 的 目的 是 利用 它 进行 预测 。 我 们 之 
前 的 辛苦 努力 在 这 里 将 得 到 回报 ， 而 且 做 起 来 相对 非常 容易 。 












































由 此 得 到 的 “最 优 模型 ”实际 上 是 包含 所 有 操作 的 整个 管道 ， 其 中 包括 如 何 对 输入 进行 转 
换 以 适 于 模型 处 理 ， 以 及 用 于 预测 的 模型 本 身 。 它 可 以 接受 新 的 DataFrame 作为 输入 。 它 
与 我 们 刚 开 始 时 使 用 的 DataFrame 数据 的 唯一 区 别 就 是 缺少 “Cover_ Type” 列 。 波 和 尔 先 生 
说 ， 当 进行 预测 时 ， 特 别 是 预测 未 来 时 ， 输 出 当然 是 未 知 的 。 
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为 了 证 明 这 一 点 ， 可 以 尝试 删除 测试 集 输入 的 “Cover_Type” 列 ， 并 进行 一 次 预测 : 


bestModel .transform(unencTestData.drop("Cover_Type")).select("prediction").show() 


|prediction| 
+---------- + 
| 6.0| 
+---------- + 


结果 应 该 为 6.0， 对 应 原始 Covtype 数据 集中 的 类 别 7 (原始 特征 从 1 开始 )。 显 然 ， 算 法 
预测 示例 中 讨论 的 地 块 植被 类 型 为 “高 山 矮 曲 林 ”(Krummholz)。 


4.13 小结 


本 章 介 绍 了 相互 关联 的 两 类 重要 的 机 器 学 习 算 法 : 分 类 和 回归 。 我 们 还 一 同 介绍 了 模型 构 
造 和 调 优 的 一 些 基 本 概念 : 特征 、 向 量 、 训 练 和 交 双 验证。 使 用 Covtype 数据 集 和 Spark 
MLlib 中 实现 的 决策 树 和 决策 森林 算法 ， 本 章 演示 了 如 何 根据 位 置 和 土壤 类 型 等 信息 预测 
森林 植被 的 类 型 。 














和 第 3 章 一 样 ， 我 们 还 可 以 进一步 研究 超 参 数 对 模型 准确 率 的 影响 。 在 选择 决策 树 超 参 数 
时 ， 我 们 往往 会 为 了 更 高 的 准确 率 而 宁愿 花费 更 长 时 间 ， 增加 桶 和 树 的 数目 通常 能 得 到 更 
高 的 精度 ， 但 精度 的 提高 在 到 达 一 定 程度 之 后 提高 的 幅度 会 越 来 越 小 。 


















































本 章 构建 的 分 类 器 结果 非常 准确 。 一 般 情 况 下 ， 准 确 率 超 过 95% 是 很 难 达 到 的 。 通 常 ， 通 
过 包括 更 多 特征 ， 或 将 已 有 特征 转换 成 预测 性 更 好 的 形式 ， 我 们 可 以 进一步 提高 准确 率 。 在 
分 类 器 模型 的 迄 代 式 改进 过 程 中 ， 我 们 常常 这 样 反 复 尝试 。 比 如 ， 对 本 章 的 数据 集 ， 距 离 地 
表 水 的 水 平和 垂直 距离 这 两 个 特征 可 以 生成 第 三 个 特征 : 离 地 表 水 的 直线 距离 。 或 者 ， 如 果 
能 收集 到 更 多 数据 ， 为 了 提高 准确 率 ， 我 们 可 能 会 尝试 增加 更 多 特征 ， 比 如 土壤 温度 。 

当然 ， 用 Covtype 数据 集 预测 森林 植被 类 型 只 是 预测 问题 的 一 种 类 型 ， 现 实 中 我 们 还 有 其 
他 的 预测 问题 。 比 如 ， 有 些 问 题 要 求 预测 连续 型 的 数值 ， 而 不 是 类 别 型 值 。 对 于 这 类 回归 
问题 ， 本 章 介绍 的 许多 分 析 方法 和 代码 照样 适用 ， 不 过 要 使 用 RandomForestRegressor 类 。 












































再 者 ， 分 类 和 回归 算法 不 只 包括 决策 树 和 决策 森林 ，Spark MLlib 实现 的 算法 也 不 限于 决策 
树 和 决策 森林 。 对 分 类 问题 ，Spark MLlib 提供 的 实现 包括 : 





。 朴素 贝 叶 斯 (https://en.wikipedia.org/wiki/Naive_Bayes_classifier) 
。 Gradient boosting (https://en.wikipedia.org/wiki/Gradient_boosting) 





。 logistic 回归 (https://en.wikipedia.org/wiki/Logistic_regression) 
。 多 层 感知 机 (Multilayer perceptron，https://en.wikipedia.org/wiki/Multilayer_perceptron) 











We 
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底层 通过 预测 类 别 的 连续 型 概 











， 你 没 看 错 ，logistic 回归 是 一 种 分 类 技术 。logistic 回 
了 了 分类。 细节 内 容 我 们 不 必 理解 。 


这 些 算 法 与 决策 树 和 决策 森林 区 别 很 大 。 但 是 ， 其 中 许多 元 素 还 是 一 样 的 : 它们 是 管道 
的 一 部 分 ， 操 作 DataFrame 中 的 列 ， 并 且 需 要 将 输入 数据 划分 为 训练 集 、 交 又 验证 集 和 
测试 集 来 选择 超 参 数 。 对 这 些 其 他 算法 ， 我 们 可 以 用 相同 的 通用 原理 为 分 类 和 决策 问题 
建 模 。 


这 些 都 是 监督 学 习 的 例子 。 如 果 茶 些 目标 值 或 全 部 目标 值 都 是 未 知 的 ， 情 况 又 会 怎样 ?下 
一 章 我 们 将 探寻 解决 之 道 。 
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第 5 章 
基于 K 均 值 察 类 的 网 络 流量 异常 检测 





作者 : 肖 恩 欧文 


据 我 们 所 知 ， 有 “已 知 的 已 知 ”; 有些 事 ， 我 们 知道 我 们 知道 。 我 们 也 知道 ， 有 “已 知 的 
未 知 "， 也 就 是 说 ， 有 些 事 ， 我 们 现在 知道 我 们 不 知道 。 但 是 ， 同 样 存在 “不 知 的 不 知 ”; 
有 些 事 ， 我 们 不 知道 我 们 不 知道 。 





Donald Rumsfeld 


分 类 和 回归 技术 很 强大 ， 在 机 器 学 习 领 域 被 广泛 研究 。 第 4 章 我 们 讲述 了 如 何 用 分 类 器 
预测 未 知 值 。 这 里 有 一 点 很 关键 : 为 了 预测 新 数据 的 未 知 值 ， 必 须 事先 给 定 许多 样本 并 
且 样本 的 目标 值 是 已 知 的 。 分 类 器 仅 在 数据 科学 家 知道 他 们 要 寻找 什么 ， 并 且 可 以 提供 
大 量 包含 输入 及 正确 输出 的 样本 数据 的 情况 下 才能 发 挥 作用 。 由 于 在 学 习 过 程 中 ， 对 每 
个 输入 样本 都 给 出 正确 的 输出 值 作为 指导 ， 所 以 分 类 和 回归 都 属于 监督 学 习 技术 (https:// 


en.wikipedia.org/wiki/Supervised_learning) 。 





























然而 ， 有 时 样本 仅 能 给 出 部 分 正确 输出 ， 其 至 无 法 给 出 输出 。 这 些 情况 下 ,分 类 和 回归 技 
术 将 无 法 使 用 。 考 虑 到 电子 商务 网 站 的 情况 ， 我 们 要 按照 购物 习惯 和 偏好 将 顾客 分 组 。 这 
里 输入 特征 是 顾客 的 购买 记录 、 点 击 记录 和 个 人 信息 等 ， 输 出 则 是 顾客 所 属 的 群体 ， 其 中 
可 能 有 一 和 群 顾客 时 尚 意识 较 强 ， 还 可 能 有 一 群 更 追求 性 价 比 。 


现在 要 求 你 确定 每 个 新 顾客 所 属 的 目标 群体 。 如 有 果 采 用 分 类 等 监督 学 习 技 术 ， 你 可 能 很 快 
就 会 发 现 缺乏 先 验 知识 的 问题 :“ 哪 些 顾客 时 尚 意识 较 强 ”这 个 信息 是 没有 的 。 时 尚 意识 
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较 强 ”这 个 顾客 群 组 对 电子 商务 网 站 是 否 有 意义 ， 你 甚至 都 不 确定 。 


这 时 我 们 就 要 用 到 非 监 督学 习 技 术 (https://en.wikipedia.org/wiki/Unsupervised_learning) 
了 ! 因为 目标 值 是 未 知 的 ， 所 以 非 监督 学 习 技 术 不 会 学 习 如 何 预测 目标 值 。 但 是 ， 它 可 以 
学 习 数据 的 结构 并 找 出 相似 输入 的 群 组 ， 或 者 学 习 哪 些 输入 类 型 可 能 出 现 ， 哪 些 类 型 不 可 
能 出 现 。 本 章 将 通过 MLlib 实现 的 聚 类 算法 来 介绍 非 监 督学 习 技 术 。 











5.1 异常 检测 


顾名思义 ， 异 常 检测 就 是 要 找 出 不 寻常 的 情况 。 如 果 已 经 知道 “异常 ”代表 什么 涵义 ， 我 
们 就 能 通过 监督 学 习 轻 松 地 检测 出 数据 集中 的 异常 。 在 样本 的 输入 被 标记 为 “正常 ”和 
“异常 ”后 ， 算 法 就 能 通过 学 习 样 本 来 区 分 “正常 ”和 “异常 ”了 。 然 而 本 质 上 异常 属于 
“未 知 的 未 知 "， 也 就 是 说 ， 在 我 们 观察 并 理解 了 异常 以 后 ， 它 就 不 再 是 异常 了 。 














异常 检测 常用 于 检测 欺诈 、 网 络 攻 击 、 服 务 器 及 传 感 设备 故障 。 在 这 些 应 用 中 ， 我 们 要 能 
够 找 出 以 前 从 未 见 过 的 新 型 异常 ， 如 新 欺诈 方式 、 新 入 侵 方法 或 新 服务 器 故障 模式 .。 











这 些 应 用 要 用 到 非 监督 学 习 技 术 ， 通 过 学 习 ， 它 们 知道 什么 是 正常 输入 ， 因 此 能 够 找 出 与 
历史 数据 有 差异 的 新 数据 。 这 些 新 数据 不 一 定 是 攻击 或 欺诈 ， 它 们 只 是 不 同 寻常 ， 因 此 值 
得 我 们 做 进一步 的 调查 。 


5.2 KK 均值 聚 类 


聚 类 是 最 有 名 的 非 监督 学 习 算 法 ， 它 试图 找到 数据 中 的 自然 群 组 。 一 群 彼此 相似 而 与 其 他 
点 不 同 的 数据 点 往往 属于 代表 某 种 意义 的 一 个 禾 群 ， 聚 类 算法 就 是 要 把 这 些 相似 的 数据 划 
分 到 同一 禾 群 中 。 

















K 均值 聚 类 (https://en.wikipedia.org/wiki/K-means_clustering) 也 许 是 应 用 最 广泛 的 聚 类 算 
法 。 它 试图 在 数据 集中 找 出 大 个 徐 群 ， 这 里 大 值 由 数据 科学 家 指定 。 大 是 模型 的 超 参 数 ， 
其 最 优 值 与 数据 集 本 身 有 关 。 事 实 上 ， 本 章 的 一 个 关键 点 就 是 如 何 选 择 合适 的 上 值 。 


对 客户 活动 或 交易 数据 集 来 说 ,“ 相 似 ” 到 底 代表 什么 ? K 均值 算法 有 个 数据 点 相距 多 远 
的 概念 。 在 KK 均值 算法 中 数据 点 相互 距离 一 般 采 用 欧 氏 距离 。 截 至 本 书 撰写 时 ， 欧 氏 距 
离 是 Spark MLlib 中 支持 的 唯一 距离 度量 。 计 算 欧 氏 距 离 时 要 求 数据 点 的 特征 都 是 数值 型 。 
数据 点 “相似 ”就 是 指 它们 相互 间 的 距离 小 。 


在 K 均值 算法 中 禾 群 其 实 就 是 一 个 点 ， 即 组 成 该 禾 的 所 有 点 的 中 心 。 数 据点 其 实 就 是 由 所 
有 数值 型 特征 组 成 的 特征 向 量 ， 简 称 向 量 。 因 为 在 欧 氏 空间 中 向 量 被 当成 了 点 ， 所 以 直接 
把 数据 点 看 成 点 会 更 加 直观 。 
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禾 群 的 中 心 称 为 质心 (centroid) ， 它 是 复 群 中 所 有 点 的 算术 平均 值 ， 因 此 算法 取 名 开 均 
值 。 算 法 开始 时 选择 一 些 数据 点 作为 徐 群 的 质心 。 然 后 把 每 个 数据 点 分 配给 最 近 的 质心 。 
接着 对 每 个 禾 计 算 该 禾 所 有 数据 点 的 平均 值 ， 并 将 其 作为 该 禾 的 新 质心 。 然 后 不 断 重 复 这 
个 过 程 。 


对 K 均值 算法 的 介绍 到 此 为 止 ， 还 有 1 
分 再 做 论述 。 


5.3 网络 入 侵 

现在 ， 网 络 攻击 越 来 越 多 地 见 诸 报 端 。 有 些 攻 击 试图 通过 产生 大 量 网 络 流 量 来 阻塞 计算 
机 上 的 合法 流量 。 其 他 一 些 攻 击 则 试图 利用 网 络 软 件 的 缺陷 以 实现 对 该 计算 机 的 非法 访 
问 。 虽 然 识 别 流 量 “ 比 炸 ” 式 入 侵 方 式 十 分 简单 ， 但 要 识别 第 二 种 入 侵 方 式 则 无 异 于 大 
海 迭 针 。 

有 些 入 侵 方 式 的 模式 是 已 知 的 。 比 如 ， 连 续 不 断 地 访问 某 个 机 器 的 所 有 端口 ， 而 正常 的 软 
件 程 序 是 不 会 这 么 做 的 。 这 往往 是 攻击 的 第 一 步 ， 其 目的 是 要 找到 计算 机 上 有 哪些 可 能 被 
攻破 的 服务 。 


统计 对 各 个 端口 在 短 时 间 内 被 远程 访问 的 次 数 ， 就 可 以 得 到 一 个 特征 ， 该 特征 可 以 很 好 地 
预测 端口 扫描 攻击 。 如 果 这 种 访问 次 数 不 多 ， 则 属于 正常 情况 ， 但 如 果 短 时 间 内 有 好 几 百 
个 访问 ， 则 属于 攻击 行为 。 这 种 方法 也 适用 于 其 他 从 网 络 连接 特征 中 预测 网 络 攻 击 ， 这 些 
特征 包括 发 送 与 接收 的 字 市 数 和 TCP 错误 数 等 。 

但 如 何 处 理 那 些 “ 未 知 的 未 知 ”? 最 大 的 威胁 可 能 就 来 自从 未 被 识别 和 分 类 的 情况 。 检 测 
潜在 网 络 入 侵 就 是 要 识别 这 些 异常 ， 我 们 并 不 知道 这 些 连接 是 不 是 攻击 ， 但 是 它们 和 以 往 
见 过 的 连接 都 不 同 。 














TI 





得 注意 的 一 些 细节 内 容 ， 我 们 将 在 接 下 来 的 案例 部 




















































































































这 里 我 们 可 以 利用 均值 之 类 的 非 监 督学 习 技术 来 识别 异常 网 络 连 接 。K 均值 可 以 根据 每 
个 网 络 连接 的 统计 属性 进行 聚 类 。 从 个 体 上 来 看 结果 禾 群 是 没有 意义 的 ， 但 从 整体 上 看 ， 
结果 矮 群 定义 了 历史 连接 的 类 型 。 因 此 徐 群 帮助 我 们 界定 了 正常 连接 的 区 域 ， 任 何在 区 域 
之 外 的 点 都 是 不 正常 的 ， 因 而 也 就 可 能 属于 异常 情况 。 




















5.4 KDD Cup 1999 数 据 集 


KDD Cup (http://www.kdd.org/kdd-cup) 是 一 项 数据 挖掘 竞赛 ， 每 年 由 美国 计算 机 协会 
(Association for Computing Machinery，ACM) 特别 兴趣 小 组 举办 。KDD Cup 每 年 都 给 
出 一 个 机 器 学 习 问 题 和 相关 数据 集 ， 研 究 人 员 应 邀 提交 论文 ， 论 文 将 详细 说 明 研 究 人 员 
各 自 就 该 机 器 学 习 问 题 给 出 的 最 佳 方案 。KDD Cup 与 之 前 的 Kaggle 竞赛 (https://www. 








86 | 第 5 章 


kaggle.com/) 类 似 。1999 年 KDD Cup 竞赛 的 主题 是 网 络 入侵 (http://www.kdd.org/kdd- 
cup/view/kdd-cup-1999/Tasks)， 今 天 我 们 仍然 可 以 拿 到 当时 的 数据 集 (http://kdd.ics.uci.edu/ 
databases/kddcup99/kddcup99.html)。 本 章 将 基于 KDD Cup 1999 数据 集 ， 利 用 Spark 构造 
一 个 网 络 流量 异常 检测 系统 。 


请 切记 不 要 基于 KDD Cup 1999 数据 集 建立 生产 系统 | 该 数据 集 并 不 一 定 反 
映 当 时 网 络 流量 的 真实 情况 ， 而 且 即 便 如 此 ， 它 反映 的 网 络 流量 规律 也 是 17 
年 前 的 了 。 





亚运 的 是 ， 举 办 方 已 经 对 原始 网 络 流 量 包 进 行 了 加 工 ， 数 据 转换 成 了 每 个 网 络 连 接 的 统计 信 
息 。 数 据 集 大 小 约 为 708 MB， 包 含 490 万 个 连接 。 数 据 量 比较 大 但 也 不 算 特别 大 ， 刚 好 汪 
足 本 章 论述 的 需要 。 数 据 集中 每 个 连接 的 信息 包括 发 送 的 字 节 数 、 登 录 次 数 、TCP 错误 数 


4 狼 


等 。 数 据 集 为 CSV 格式 ， 每 个 连接 占 一 行 ， 包 含 38 个 特征 ， 下 面 是 其 中 一 个 连接 的 样 例 : 




















0,tcp,http, SF,215,45076, 
0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1, 
0.00,0.00,0.00,0.00,1.00,0.00,0.00,0,0,0.00, 
0.00,0.00,0.00,0.00,0.00,0.00,0.00,normal. 


以 上 代表 一 个 TCP 连接 ， 它 访问 HTTP 服务 ， 发 送 了 数据 215 字 节 ， 收 到 数据 45 706 字 
节 ， 用 户 登 录 成 功 等 。 其 中 许多 特征 代表 统计 次 数 ， 比 如 第 17 列 的 num_file_creations。 


许多 特征 取 值 为 0 或 1， 比 如 第 15 列 su_attempted， 它 们 代表 某 种 行为 出 现 与 否 。 这 些 特 





征 类 似 第 4 章 介绍 的 用 one-hot 编码 的 类 别 型 特征 ， 但 分 类 和 关联 方式 有 所 不 同 。 每 个 都 


像 是 一 个 


是 / 否 ” 特 征 ， 因 








此 可 以 认为 是 一 个 类 别 型 特征 。 将 类 别 型 特征 转换 为 数字 并 








且 按 大 小 排序 并 不 适合 所 有 场景 。 但 对 于 二 元 类 别 型 特征 这 种 特殊 情况 ， 将 其 映射 为 0/1 
的 数值 型 特征 对 于 大 多 数 机 器 学 习 算 法 都 是 没 问题 的 。 


其 他 的 特征 都 代表 比率 ， 








比如 dst_host_srv_rerror_rate， 取 值 的 范围 为 [0.0,1.0]。 





注意 最 后 的 字段 表示 类 别 标号 。 大 多 数 标号 为 normaL.， 但 也 有 一 些 样本 代表 各 种 网 络 攻 
击 。 虽 然 这 些 样本 可 用 于 学 习 如 何 把 “已 知 ”的 攻击 从 正常 连接 中 区 分 开 来 ， 但 这 里 要 讨 
论 的 是 异常 检测 问题 ， 所 以 我 们 更 关心 找 出 新 的 痪 在 攻击 ， 也 就 是 “未 知 ” 攻 击 。 因 此 我 
们 先 不 在 算法 中 使 用 这 些 标号 信息 。 


& J 上 .A A_ 办 < 

5.5 初步 党 试 聚 类 

将 kddcup.data.gz 数据 文件 解压 并 复制 到 HDFS 上 。 像 以 前 一 样 ， 这 里 我 们 假设 文件 放 在 
/user/ds/kddcup.data 目录 下 。 启 动 spark-shell 并 把 CSV 格式 数据 加 载 为 DataFrame。 这 又 
是 一 个 CSV 文件 ， 不 过 这 次 设 有 文件 头 。 因 此 ， 需 要 用 到 附带 的 文件 kddcup.names 提供 的 
列 名 。 
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val dataWithoutHeader = spark.read . 
option("inferSchema", true). 
option("header", false). 
csv("hdfs:///user/ds/kddcup.data") 


val data = dataWithoutHeader .toDF( 
"duration", "protocol_ type", "service", "flag", 
"src_bytes", "dst_ bytes", "land", "wrong_fragment", "urgent", 
"hot", "num_failed_ logins", "logged_ in", "num_compromised", 
"root_shell", "su_attempted", "num root", "num file creations", 
"num_shells", "num_access_files", "num outbound_cmds", 
"is_host_login", "is guest login", "count", "srv_count", 
"serror_rate", "srv_serror_rate", "rerror_rate", "srv_rerror_rate", 
"same_srv_rate", "diff_srv_rate", "srv_diff_host_rate", 
"dst_host_ count", "dst host_srv_count", 
"dst_host_same_srv_rate", "dst host diff_srv_rate", 
"dst_host_same_src_port_rate", "dst host_srv_diff_host_rate", 
"dst_host_serror_rate", "dst host_srv_serror_rate", 
"dst_host_rerror_rate", "dst_host_srv_rerror_rate", 
"label") 


先 来 看 看 数据 集 。 我 们 想 知 道 数据 有 哪些 类 别 标号 以 及 每 类 样本 有 多 少 。 以 下 代码 分 类 统 
计 样 本 个 数 ， 按 样本 数 从 多 到 少 排序 ， 然 后 打印 结果 : 








data.select("label").groupBy("label").count().orderBy($"count".desc).show(25) 


+---------------- +------- + 
| LabeL| count| 


smurf. |2807886| 
neptune. |1072017| 
normal.| 972781| 
satan.| 15892| 


| phf. | 4| 
| perl.| 3| 
| spy. | 2| 
+---- +------- + 


可 以 看 到 数据 集中 样本 有 23 个 不 同类 型 ， 其 中 smurf. 和 neptune. 类 型 的 攻击 最 多 。 


注意 数据 中 有 些 特征 不 是 数值 型 的 。 比 如 第 二 列 可 能 取 值 tcp、udp 或 icemp, 但 是 KK 均 
值 聚 类 算法 要 求 特征 为 数据 型 。 最 后 的 标号 列 也 不 是 数值 型 。 我 们 先 简单 包 略 这 些 非 数 
值 列 。 











除 此 以 外 ， 对 数据 进行 玉 均 值 聚 类 ， 这 与 第 4 章 中 的 做 法 一 样 。 pe 创建 
一 个 特征 向 量 ， 基 于 这 些 特 征 向 量 用 一 个 K 均值 实现 来 创建 一 个 模型 ， 再 用 一 个 管道 将 它 
们 拼接 在 一 起 。 从 得 到 的 模型 中 ， 可 以 提取 并 检验 簇 群 中 心 。 
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import org.apache.spark.ml.Pipeline 
import org.apache.spark.ml.clustering.{KMeans, KMeansModel} 
import org.apache.spark.mL.feature.VectorAssembLer 


val numericOnly = data.drop("protocol_type", "service", "flag").cache() 


val assembler = new VectorAssembler(). 
setInputCols(numericOnly.columns.filter(_ != "label")). 
setOutputCol("featureVector") 


val kmeans = new KMeans(). 
setpredictionCol("cluster"). 
setFeaturesCol("featureVector") 


val pipeline = new Pipeline().setStages(Array(assembler, kmeans)) 

val pipelineModel = pipeline.fit(numericOnly) 

val kmeansModel = pipelineModel.stages.last.asInstanceOf[KMeansModel] 
kmeansModel .clusterCenters.foreach(println) 


[48.34019491959669 ,1834.6215497618625 ,826.2031900016945,793027561892E-4,... 
[10999.0,0.0,1.309937401E9,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,... 


对 这 些 数 字 做 一 个 直观 的 解释 并 不 容易 ， 但 是 每 一 个 数字 都 表示 模型 生成 的 一 一 个 复 群 中 心 
[也 称 为 质心 (centroid) ]。 就 每 个 数值 输入 特征 而 言 ， 这 些 值 是 质心 的 坐标 。 


程序 输出 两 个 向 量 ， 代 表 K 均值 将 数据 聚 类 成 好 2 个 禾 。 对 本 章 的 数据 集 ， 我 们 知道 连接 
的 类 型 有 23 个 ， 因 此 程序 肯定 没 能 准确 刻画 出 数据 中 的 不 同 群 组 。 


这 时 利用 给 定 的 类 别 标号 信息 ， 我 们 就 能 直观 地 看 到 两 个 簇 中 分 别 包 含 哪些 类 型 的 样本 。 
为 此 ， 可 以 对 每 个 复 中 每 个 标号 出 现 的 次 数 进行 计数 。 


虐 





























val withCluster = pipelineModel.transform(numericOnly) 


withCluster.select("cluster", "label"). 
groupBy("cluster", "label").count(). 
orderBy($"cluster", $"count".desc). 


show(25) 
+------- +---------------- +------- + 
|cLuster| LabeL| count| 
+------- +---------------- +------- + 
| 0o| smurf.|2807886| 
| 0o| neptune. |1072017| 
| 9| normal.| 972781| 
| 9| satan.| 15892| 
| 9| ipsweep.| 12481| 
| ol phf . | 4| 
| 0o| perl.| 3| 
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| 91 spy.| 2| 
| | portsweep .| 1| 
+------- +---------------- +------- 十 


结果 显示 聚 类 根本 设 有 任何 作用 。 徐 1 只 有 一 个 数据 点 ! 


5.6 kk 的 选择 


显然 将 数据 集聚 类 成 两 个 禾 是 不 够 的 。 但 究竟 聚 类 成 多 少 个 徐 合 适 呢 ? 很 明显 本 章 数据 集 
有 23 种 不 同 的 入 侵 模 式 ， 因 此 看 起 来 至 少 应 该 取 23 或 者 更 大 。 通 常情 况 ， 下 我 们 要 堂 
试 多 个 不 同 的 磊 值 才 能 找到 最 好 的 上 值 。 但 “最 好 ”代表 什么 涵义 呢 ? 





如 果 每 个 数据 点 都 紧 靠 最 近 的 质心 ， 则 可 认为 聚 类 是 较 优 的 。 这 里 的 “ 近 ” 采 用 欧 氏 距离 
(Euclidean distance) 定义 。 这 是 评估 聚 类 质量 的 一 种 简单 又 常用 的 方法 ， 使 用 与 所 有 点 之 
间距 离 的 平均 值 ， 有 了 时 也 可 以 使 用 平方 距离 的 平均 值 。 实 际 上 ，KMeansModel 提供 了 一 个 
computeCost 方法 来 计算 平方 距离 的 总 和 ， 并 且 很 容易 用 来 计算 平方 距离 的 平均 值 。 











不 幸 的 是 ， 不 像 计 算 多 分 类 指标 那样 ， 现 在 没有 一 个 Evaluator 的 实现 可 以 简单 地 计算 这 
个 度量 。 不 过 自己 写 代 码 来 评估 几 个 大 值 的 聚 类 成 本 也 不 难 。 请 注意 ， 下 面 的 代码 需要 运 
行 至 少 10 分 钟 。 




















import org.apache.spark.sqL.DataFrame 


def cLusteringScore0(data: DataFrame, k: Int): Double = { 
val assembler = new VectorAssembler(). 
setInputCols(data.columns.filter(_ != "label")). 
setOutputCol("featureVector") 
val kmeans = new KMeans(). 
setSeed(Random.nextLong() ) . 
setK(k) . 
setpredictionCol("cluster"). 
setFeaturesCol("featureVector") 
val pipeline = new Pipeline().setStages(Array(assembler, kmeans)) 
val kmeansModel = pipeline.fit(data).stages.last.asInstanceOf[KMeansModel] 
kmeansModel .computeCost(assembler.transform(data)) / data.count() @ 


} 


(20 to 100 by 20).map(k => (k, clusteringScoreQ(numericOnly, k))). 
foreach(println) 


(20,6.649218115128446E7) 
(40,2.5031424366033625E7) 
(60,1.027261913057096E7) 
(80,1.2514131711109027E7) 
(100,7235531.565096531) 














@ 通过 平方 距离 的 总 和 和 ， 计 算 平 方 距 离 的 均值 (“cost”)。 
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Scala 通常 采用 (x to y by z) 这 种 形式 的 惯用 语法 来 建立 一 个 数字 集合 ， 该 集合 的 元 素 为 
闭合 区 间 内 的 等 差 数 列 。 这 种 语法 可 用 于 快速 建立 一 系列 丰 值 ， 如 “20, 40, …, 100”， 然 
后 对 每 个 值 分 别 执行 某 项 任务 。 


输出 结果 显示 得 分 随 着 的 增加 而 降低 。 注 意 分 数 是 用 科学 记 数 法 表示 的 ， 第 一 个 值 超过 
了 10', 不 是 仅 略 大 于 6。 





























由 于 聚 类 结果 依赖 于 随机 选择 的 初始 质心 ， 可 能 你 又 会 看 到 稍微 不 同 的 
结果 。 




















但 是 这 个 结果 没什么 稀奇 的 。 随 着 簇 的 增加 ， 数 据点 肯定 可 以 更 接近 最 近 的 质心 。 实 际 
上 如 果 值 等 于 数据 点 的 个 数 ， 由 于 此 时 每 个 点 都 是 自己 构成 的 徐 的 质心 ， 此 时 平均 距 
离 为 0。 


更 糟糕 的 情况 是 ， 前 面 的 结果 中 k=80 时 的 距离 居然 比 f=60 的 距离 大 。 这 不 应 该 发 生 ， 因 
为 上 取 更 大 值 时 ， 聚 类 的 结果 应 该 至 少 与 大 取 一 个 较 小 值 时 的 结果 一 样 好 。 问 题 的 原因 在 
于 ， 这 种 给 定 值 的 K 均值 算法 并 不 一 定 能 得 到 最 优 聚 类 。K 均值 的 迭代 过 程 是 从 一 个 随 
机 点 开始 的 ， 因 此 可 能 收敛 于 一 个 局 部 最 小 值 ， 这 个 局 部 最 小 值 可 能 还 不 错 ， 但 并 不 是 全 
局 最 优 的 。 


即使 采用 更 加 智能 的 方法 来 选择 初始 质心 ， 上 述 情况 依然 会 存在 。"K 均值 ++” 和 “K 均 
值 ” 是 均值 算法 的 变 体 ， 其 初始 质心 算法 更 容易 产生 多 种 多 样 且 相对 分 散 的 初始 质 
心 ， 因 而 更 容易 得 到 较 好 的 聚 类 结果 。 实 际 上 Spark MLlib 实现 的 就 是 “K 均值 ”算法 
(https:/Wstanford.io/1ALCOaN ) 。 但 是 ， 不 管 怎样 这 里 还 是 有 随机 选择 的 因素 ， 所 以 不 能 保 
证 全 局 最 优 。 






































人 80 时 设 能 取得 最 优 聚 类 结果 ， 这 可 能 是 随机 初始 质心 所 造成 的 ， 也 可 能 是 由 于 算法 在 达 
到 局 部 最 优 之 前 就 过 早 结束 了 。 

















增加 迭代 时 间 可 以 优化 聚 类 结果 。 算 法 提供 了 setTol() 来 设置 一 个 国 值 ， 该 装 值 控制 聚 

类 过 程 中 徐 质 心 进行 有 效 移动 的 最 小 值 。 降 低 该 国 值 能 使 质心 继续 移动 更 长 的 时 间 。 使 用 

setMaxIter() 增加 最 大 迭代 次 数 也 可 以 防止 它 过 时 停止 ， 代 价 是 可 能 需要 更 多 的 计算 。 
def cLusteringScore1(data: DataFrame, k: Int): Double = { 


setMaxIter(40). © 
setToL(1.0e-5) © 
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(20 to 100 by 20).map(k => (k, clusteringScorel(numericOnly, k))). 
foreach(printtLn) 


@ 从 默认 值 20 开始 增加 。 
@ 默认 为 1.0e-4， 这 里 比 默 认 值 小 。 


这 时 随 着 上 值 的 增 大 ， 至 少 结果 得 分 持续 下 降 ， 












































(20,1.8041795813813403E8) 
(40,6.33056876207124E7) 
(60,9474961.544965891) 
(80,9388117.93747141) 
(100,8783628.926311461) 





我 们 要 找到 大 值 的 一 个 临界 点 ， 过 了 这 个 临界 点 之 后 继续 增加 大 值 并 不 会 显著 地 降低 得 分 ， 
这 个 点 就 是 上 值 -得 分 曲线 的 拐点 。 这 条 曲线 通常 在 拐点 之 后 会 继续 下 行 但 最 终 趋 于 水 平 。 
在 本 示例 中 ， 在 上 过 了 100 这 个 点 之 后 得 分 下 降 还 是 很 明显 ， 所 以 大 的 拐点 值 应 该 大 于 100。 


5.7 基于 SparkR 的 可 视 化 


再 次 进行 聚 类 之 前 ， 我 们 先 停 下 来 ， 更 深入 地 了 解 一 下 数据 ， 这 是 有 好 处 的 。 尤 其 是 查看 一 
些 数据 的 散 点 图 是 很 有 帮助 的 。 





























Spark 本 身 没有 提供 可 视 化 工具 ， 但 是 流行 的 开源 统计 环境 R (https:/www.r-project.org/) 有 
我 们 需要 的 数据 探查 和 数据 可 视 化 工具 。 此 外 ，Spark 还 通过 SparkR (https://spark.apache. 
org/docs/latest/sparkr.html) 提供 了 一 些 与 R 的 基础 集成 。 这 一 节 我 们 将 简要 地 演示 如 何 使 用 
R 和 SparkR 对 数据 进行 聚 类 ， 并 探查 这 些 产 生 的 禾 群 。 

















本 书 中 使 用 的 SparkR 是 spark-shell 的 一 个 变 体 ， 用 命令 sparkR 来 运行 它 。SparkR 运行 一 
个 本 地 的 R 解释 器 ， 这 一 点 和 spark-shell 本 地 运行 Scala shell 的 变 体 类 似 。 运 行 sparkR 
的 机 器 需要 在 本 地 安装 R， 但 Spark 安装 包 并 不 包含 R。 要 安装 RR，Ubuntu 这 类 Linux 发 行 
版 用 户 可 使 用 sudo apt-get install r-base，macOS 用 户 可 以 使 用 Homebrew (https://brew. 
sh/) 运行 brew install R。 








与 R 类似 ，SparkR 也 是 一 个 命令 行 shell 环境 。 要 想 将 其 可 视 化 ， 我 们 需要 在 一 个 可 以 展 
示 图 形 的 类 IDE 环境 中 运行 这 些 命令 。RStudio (https:/www.rstudio.com/) 是 一 种 支持 RR 的 
IDE (也 支持 SparkR) ; 它 运 行 在 桌面 操作 系统 上 ， 所 以 只 能 在 本 地 机 器 上 的 RStudio 试验 
Spark， 而 不 是 在 集群 上 。 




















如 果 在 本 地 运行 Spark， 可 以 下 载 并 安装 RStudio 的 免费 版 (https://www.rstudio.com/products/ 
rstudio/download2/) 。 否 则 即使 不 在 本 地 运行 ， 本 示例 中 余下 的 大 部 分 代码 也 可 以 通过 sparkR 
命令 行 在 集群 上 执行 ， 这 样 就 无 法 展现 可 视 化 效果 了 。 
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如 果 通 过 RStudio 执行 ， 我 们 先 启动 IDE。 如 果 本 地 环境 没有 设置 过 SPARK_HOME 和 JAVA_ 
HOME 的 话 ， 需 要 设置 这 两 个 环境 变量 ， 让 它们 分 别 指向 Spark 和 JDK 的 安装 目录 : 


Sys.setenv(SPARK_HOME = "/path/to/spark") © 
Sys.setenv(JAVA_HOME = "/path/to/java") 
library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"))) 
sparkR.session(master = "local[*]", 
sparkConfig = list(spark.driver.memory = "4g")) 


@ 当然 ， 需 要 根据 实际 情况 替换 路 径 。 





请 注意 ， 如 果 是 在 命令 行 上 运行 sparkR， 上 面 的 步骤 就 不 必要 了 。 对 于 命令 行 运行 sparkR 
的 情况 ， 我 们 通过 命令 行 配置 参 数 ， 比 如 --driver-memory， 这 一 点 与 spark-shell 类 似 。 














SparkR 是 本 章 前 面 介绍 过 的 DataFrame 和 MLlib API 的 R 语言 包装 。 因 此 ， 可 以 为 数据 重新 
创建 一 个 简单 的 K 均值 复 群 : 








clusters_data <- read.df("/path/to/kddcup.data", "csv", © 
inferSchema = "true", header = "false") 
colnames(clusters data) <- c( 外 
"duration", "protocol_type", "service", "flag", 
"src_bytes", "dst_ bytes", "land", "wrong_fragment", "urgent", 
"hot", "num_failed logins", "logged in", "num_ compromised", 
"root_shell", "syu_attempted", "num_root", "num_ file creations", 
"num_shells", "num_access_files", "num_ outbound_cmds", 
"is_host_ login", "is_guyest login", "count", "srv_count", 
"serror_rate", "srv_serror_rate", "rerror_rate", "srv_rerror_rate", 
"same_srv_rate", "diff_srv_rate", "srv_diff_host_rate", 
"dst_host_count", "dst_host_srv_count", 
"dst_host_same_srv_rate", "dst_host diff_srv_rate", 
"dst_host_same_src_port_rate", "dst_ host_srv_diff_host_rate", 
"dst_host_serror_rate", "dst_host_srv_serror_rate", 
"dst_host_rerror_rate", "dst_host_srv_rerror_rate", 
"Label") 


numeric_onLy <- cache(drop(clusters data, © 
c("protocol_type", "service", "flag", "label"))) 


@ 


40, initMode = "k-means||") 


kmeans_model <- spark.kmeans(numeric only, ~ . 
k = 100, maxIter 


# 





@ 使 用 kddcup.data 的 真实 路 径 。 
@ 列 名 。 

@ 再 一 次 去 掉 非 数值 类 型 的 列 。 
@ ~. 表示 所 有 的 列 。 


这 里 给 每 个 数据 点 指定 复 群 是 很 简单 的 。 上 面 的 操作 展示 了 SparkR API 的 用 法 ， 我 们 可 以 
很 自然 地 将 它们 和 Spark Core API 中 的 操作 对 应 起 来 ， 不 过 这 些 操作 使 用 的 是 R 库 和 类 R 
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语法 。 真 正 的 聚 类 仍旧 使 用 MLlib 库 的 实现 ， 它 基于 JVM 并 使 用 Scala。 这 些 操作 实际 上 
只 是 


分 布 式 运算 的 一 个 句柄 或 是 远程 控制 器 ， 这 些 分 布 式 运算 并 没有 在 R 中 执行 。 





R 有 自己 丰富 的 数据 分 析 库 ， 也 有 类 似 DataFrame 的 概念 。 因 此 ， 有 时 候 为 了 能 够 使 用 这 
些 与 Spark 无 关 的 R 原生 库 ， 把 一 些 数据 放 入 R 解释 器 中 处 理 是 很 有 用 的 。 


i 
当然 ， 




















R 及 其 类 库 不 是 分 布 式 的 ， 所 以 把 包含 4 898 431 个 数据 点 的 整个 数据 集 拉 进 R 中 





是 不 可 行 的 ， 但 是 拉 一 些 样 本 倒是 很 容易 的 : 


0 


clustering <- predict(kmeans_model, numeric only) 
clustering_sample <- collect(sample(clustering, FALSE, 0.01)) © 


str(clustering_sample) 


'data.frame': 48984 obs. of 39 variables: 


$ duration : int 0000000000... 

$ src_bytes : int 181 185 162 254 282 310 212 214 181 ... 
$ dst_bytes : int 5450 9020 4528 849 424 1981 2917 3404 ... 
$ Land :int0000000000... 

$ prediction : int333333000003333 ... 





按 1% 比率 进行 无 放 回 采样 。 


clustering_sample 实际 上 是 R 的 一 个 本 地 DataFrame， 而 不 是 Spark 的 DataFrame， 所 以 
它 可 以 像 R 的 任何 其 他 数据 一 样 操作 。 在 上 面 的 代码 中 ，str() 方法 显示 了 DataFrame 的 
结构 。 例 如 ， 它 可 以 提取 复 群 标号 ， 然 后 显示 复 群 标号 分 布 的 统计 信息 


























clusters <- CLustering_sampLe["prediction"] © 
data <- data.matrix(within(clustering_sample, rm("prediction"))) @ 


table(clusters) 
clusters 

0 11 14 18 23 25 28 30 31 33 36 
47294 3 1 2 2 308 105 1 27 1219 15 


@ 只 有 簇 群 标号 的 列 。 
@ 禾 群 标号 的 列 以 外 的 列 。 


例如 ， 这 表明 大 多 数 的 点 都 属于 簇 群 0。 尽管 在 R 中 可 以 做 更 多 的 事情 ， 但 这 超出 了 本 书 的 





























范围 。 

为 了 对 数据 进行 可 视 化 ， 需 要 用 到 一 个 名 为 rgl 的 库 。 只 有 在 RStudio 中 运行 这 个 示例 时 ， 
才能 使 用 这 个 功能 。 首 先 ， 安 装 (只 需 一 次 ) 并 加 载 类 库 : 
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install.packages("rgl") 
library(rgl) 











注意 ，R 可 能 提示 下 载 其 他 包 或 编译 工具 以 完成 安装 ， 因 为 安装 程序 包 意 味 着 从 源 代码 编 


译 它 。 














这 个 数据 集 是 38 维 的 ， 需 要 将 数据 投射 到 最 多 三 维 的 空间 上 才能 进行 可 视 化 ， 这 里 我 们 进 
行 随机 投射 。 





random_projection <- matrix(data = rnorm(3*ncol(data)), ncol = 3) O 
random_projection_norm <- 
random_projection / sqrt(rowSums(random_projection*random_projection)) 


projected data <- data.frame(data %*% random_projection norm) @ 


@ 随机 进行 三 维 投影 并 归 一 化 。 
@ 投影 并 构建 一 个 新 的 DataFrame。 


使 用 3 个 随机 单位 向 量 ，R 代码 将 38 维 数据 集 向 这 3 个 单位 向 量 方向 进行 投影 ， 从 而 
得 到 一 个 三 维 数据 集 。 这 里 我 们 采用 的 是 简单 粗暴 的 降 维 方法 。 当 然 我 们 也 可 以 采用 更 
加 复杂 的 降 维 算法 ， 比 如 主 成 分 分 析 算 法 (PCA，https://en.wikipedia.org/wiki/Principal_ 
component analysis) 和 奇异 值 分 解 算法 (SVD，https://en.wikipedia.org/wiki/Singular_value_ 
decomposition) 。 这 些 算 法 在 R 里 都 有 ， 但 运行 时 间 很 长 。 对 于 本 章 示例 数据 的 可 视 化 ， 采 
用 随机 投影 方法 效果 差别 不 大 但 速度 却 要 快 很 多 。 

















最 后 通过 交互 式 三 维 可 视 化 来 绘制 聚 类 后 的 点 : 


Num_clusters <- max(clusters) 

palette <- rainbow(num_clusters) 

colors = sapply(clusters, function(c) palette[c]) 
plot3d(projected_data, col = colors, size = 10) 





注意 ， 这 里 需要 在 一 个 支持 rgl 库 和 图 形 显示 的 环境 中 运行 RStudio。 例 如 ， 在 macOS 上 ， 
尼 需 要 已 安装 苹果 开发 者 工具 X11。 









































图 5-1 为 可 视 化 的 结果 ， 它 显示 了 三 维 空间 的 数据 点 ， 不 同 签 用 不 同 颜色 表示 。 许 多 点 都 
重合 在 一 起 ， 而 且 结 果 很 稀 玉 ， 因 此 有 些 难 懂 。 然 而 图 形 明显 呈 “L” 状 。 看 来 数据 点 在 
两 个 维度 上 有 变化 ， 而 在 其 他 维度 上 没什么 变化 。 


这 种 现象 是 合理 的 ， 因 为 数据 集 有 两 个 特征 的 取 值 范围 要 比 其 他 特征 大 得 多 。 大 多 数 特 征 
的 取 值 范围 为 0~-1， 但 发 送 字 节 数 和 接收 字 节 数 这 两 个 特征 的 取 值 为 0 到 数 万 字 节 。 因 此 
点 的 欧 氏 距离 几乎 完全 由 这 两 个 特征 决定 ， 其 他 特征 似乎 根本 就 不 存在 。 必 须 对 不 同 的 数 
据 取 值 范围 进行 归 范 化 ， 才 能 把 特征 放 在 近似 的 基准 上 。 
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5-1: 随机 三 维 投影 


5.8 特征 的 规范 化 

特征 的 规范 化 可 以 通过 将 每 个 特征 转换 为 标准 得 分 (https://en.wikipedia.org/wiki/Standard_ 
score) 来 完成 。 这 就 是 说 用 对 每 个 特征 值 求 平均 ， 用 每 个 特征 值 减 去 平均 值 ， 然 后 除 以 特 
征 值 的 标准 差 ， 如 下 标准 分 计算 公式 所 示 ; 


























8 feature —/, 
normalized, = 一 一 一 一 一 
Oo. 


i 


由 于 减 去 平均 值 相当 于 把 所 有 数据 点 沿 相同 方法 移动 相同 距离 ， 不 影响 点 之 间 的 欧 氏 距 
离 ， 所 以 实际 上 减 去 平均 值 对 聚 类 结果 没有 影响 。 












































MLlib 提供 了 Standardscaler 组 件 ， 用 于 特征 的 规范 化 ， 并 且 能 很 轻松 地 加 入 集群 的 管 
道中 。 


增加 大 的 取 值 范围 并 在 规范 化 的 数据 上 运行 相同 测试 
































import org.apache.spark.ml.feature.StandardScaler 


def clusteringScore2(data: DataFrame，k: Int): Double = { 
val assembler = new VectorAssembler(). 
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setInputCols(data.columns.filter(_ != "label")). 
setOutputCol("featureVector") 

val scaler = new StandardScaler() 
.setInputCol("featureVector") 
.SetOutputCol("scaledFeatureVector") 
.setWithStd(true) 
.setWithMean(false) 

val kmeans = new KMeans(). 
setSeed(Random.nextLong()). 
setk(k). 
setpredictionCol("cluster"). 
setFeaturesCol("scaledFeatureVector"). 
setMaxIter(40). 
setToL(1.0e-5) 


val pipeline = new Pipeline().setStages(Array(assembler, scaler, kmeans)) 


val pipelineModel = pipeline.fit(data) 


val kmeansModel = pipelineModel.stages.last.asInstanceOf[KMeansModel] 
kmeansModel .computeCost(pipelineModel.transform(data)) / data.count() 


} 


(60 to 270 by 30).map(k => (k, clusteringScore2(numericOnly, k))). 


foreach(println) 


有 助 于 将 维度 放 到 更 平等 的 基准 上 ， 而 且 在 绝对 的 意义 上 ， 




















看 点 之 间 的 绝对 距离 (也 就 


二 
是 代价 ) 要 小 得 多 。 然 而 , 上 值 还 没有 出 现 一 个 明显 的 点 ， 超 过 该 点 后 ， 增 加 大 值 对 于 改 
着 


代价 没有 明显 的 作用 : 


(60,1.2454250178069293) 
(90,0.7767730051608682) 
(120,0.5070473497003614) 
(150,0.4077081720067704) 
(180,0.3344486714980788) 
(210,0.276237617334138) 
(240,0.24571877339169032) 
(270,0.21818167354866858) 





对 规范 化 数据 再 次 在 三 维 空间 上 进行 可 视 化 。 如 期 望 的 那样 





， 图 形 显示 出 更 丰富 的 结构 。 





有 些 点 分 布 在 一 个 方向 上 ， 间 隔 相差 不 远 ， 这 些 点 可 能 是 数据 中 离散 维度 〈 比 如 个 数 ) 的 
入 影 。 由 于 有 100 个 禾 群 ， 我 们 很 难 从 图 形 中 看 出 每 个 点 属于 哪个 徐 。 图 中 有 一 个 占据 多 























数 的 大 徐 群 和 有 许多 小 禾 群 ， 小 徐 群 显示 为 紧凑 的 子 区 域 (图 5-2 是 整个 三 维 图 形 中 的 一 























部 分 ， 并 经 过 了 放大 处 理 ， 所 以 图 中 有 些 复 没有 显示 出 来 )。 
提升 我 们 的 分 析 结 果 ， 但 它 进 行 的 完整 性 检查 是 有 帮助 的 。 




















图 5-2 的 结果 虽然 没有 进一步 
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图 5-2: 随机 三 维 投影 (规范 化 ) 


5.9 类 别 型 变量 

一 化 使 聚 类 结果 有 了 可 贯 的 进步 ， 但 聚 类 结果 还 有 进一步 提升 的 空间 。 比 如 说 ， 几 个 特 
征 由 于 不 是 数值 型 就 被 去 掉 了， 于 是 这 些 特征 里 有 价值 的 信息 也 被 丢掉 了 。 如 果 将 这 些 信 
息 以 某 种 形式 加 回来 ， 我 们 应 该 能 得 到 更 好 的 聚 类 。 


在 本 章 的 前 几 节 中 ， 因 为 MLlib 的 K 均值 实现 的 欧 氏 距离 函数 中 不 能 使 用 非 数值 型 特征 ， 
所 以 我 们 把 3 个 类 别 型 特征 排除 掉 了 。 这 种 对 类 别 型 特征 的 处 理 方法 与 第 4 章 的 不 同 ， 第 
4 章 将 原本 为 类 别 型 的 特征 处 理 成 了 数值 型 特征 。 


类 别 型 特征 可 以 用 one-hot 编码 转换 为 几 个 二 元 特征 ， 这 几 个 二 元 特征 可 以 看 成 数值 型 
维度 。 举 个 例子 ， 数 据 集 的 第 二 列 代表 协议 类 型 ， 取 值 可 能 是 tcp、udp 或 icmp。 可 以 把 
它们 看 成 3 个 特征 ， 分 别 取 名 为 is_tcp、is_udp 和 is_icmp。 这 样 ， 特 征 值 tcp 就 变 成 
1,0,0，udp 对 应 0,1,0，icmp 对 应 0,0,1， 以 此 类 推 。 


Se 




















hl 


MLlib 再 一 次 提供 了 实现 这 种 转换 的 组 件 。 事 实 上 像 protocal_type 这 样 的 one-hot 编码 字 
符 串 特 征 需要 分 两 步骤 处 理 。 第 一 步 ， 使 用 StringIndexer 将 字符 串 转 换 为 整数 索引 ， 如 
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0、1、2 等 。 


第 二 步 ， 这 些 整 


以 当 作 一 个 小 型 的 管道 


约 数 索引 用 OneHotEncoder 编码 成 一 个 向 量 。 这 两 步 本 身 也 可 





import org.apache.spark.ml.feature. {OneHotEncoder, StringIndexer} 


def oneHotPipeLine(inputCoL: String): 


val indexer = new StringIndexer(). 
setInputCol(inputCol). 
setOutputCol(inputCol + "_indexed") 

val encoder = new OneHotEncoder(). 
setInputCol(inputCol + "_indexed"). 
setOutputCol(inputCol + "_vec") 

val pipeline = new Pipeline().setStages(Array(indexer, encoder)) 


(pipeline, inputCol + " 


_vec") @ 


回 管 道 和 输出 向 量 列 的 名 称 。 


该 方法 会 生成 一 
最 后 我 们 要 做 就 是 确保 将 新 的 输 


个 管道 ， 可 以 作为 一 个 组 从 














添加 到 
向 量 列 添加 到 VectorAssembler 的 输出 中 ， 并 像 以 前 一 


(Pipeline, String) = { 


整个 聚 类 管道 中 。 管 道 是 可 以 组 装 的 。 


样 进行 缩放 、 聚 类 和 评估 。 为 简洁 起 见 ， 此 处 省 略 源 代 码 ， 但 可 以 在 本 章 附带 的 存储 库 中 


找到 。 


(60,39. 
(90,15. 
(120,3. 
(150,2. 
(180,1. 
(210,1. 
(240,1. 
(270,0. 


这 些 样本 结果 表明 ， 从 三 180 这 个 点 开始 ， 
所 有 的 输入 特征 。 


5.10 


念 可 以 进一步 规范 化 ， 将 其 作为 评价 聚 





择 k 值 。 











739250062068685) 
814341529964691) 
5008631362395413) 
2151974068685547) 
587330730808905) 
3626704802348888) 
1202477806210747) 
9263659836264369) 





利用 标号 的 灶 信 息 


前 面 在 对 聚 类 质量 做 快速 的 完 

















平分 值 的 变化 趋 于 平缓 。 至 少 现在 聚 类 使 用 了 


整 性 检查 时 ， 我 们 使 用 了 数据 点 的 类 别 标号 信息 。 这 个 概 


类 质量 的 一 种 可 能 方法 ， 这 样 我 们 就 可 以 用 它 选 


标签 告诉 我 们 每 个 数据 点 的 真实 性 质 。 好 的 聚 类 应 该 和 人 工 标签 保持 一 致 ， 大 部 分 情况 
下 ， 标 签 相同 的 数据 点 应 聚 在 一 起 ， 而 标签 不 同 的 数据 点 不 应 该 在 一 起 ， 并 且 徐 内 的 数据 
点 标签 相同 。 


第 4 章 我 们 定义 了 同 质 的 度量 指标 : 








Gini 不 纯度 和 焙 。 这 两 个 指标 都 是 每 个 徐 中 标签 比例 




















SE 
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的 函数 ， 当 比例 偏 斜 为 少数 标签 甚至 是 一 个 标签 时 ， 其 值 会 变 得 很 小 。 这 里 用 和 来 说 明 。 





def entropy(counts: IterabLe[Int]): Double = { 
val values = counts.filter(_ > 0) 
val nNn = vaLues.map(_.toDoubLe).sum 
values.map { v => 


valL p=v/n 
-p * math.Log(p) 
}.sum 


} 


良好 的 聚 类 结果 簇 中 样本 类 别 大 体 相同 ， 因 而 入 值 较 低 。 我 们 可 以 对 各 个 徐 的 米 加 权 平 
均 ， 将 结果 作为 聚 类 得 分 : 





























val clusterLabel = pipelineModel.transform(data). 
select("cluster", "label").as[(Int, String)] @ 


val weightedClusterEntropy = clusterLabel. 
groupByKey { case (cluster, _) => cluster }. @ 
mapGroups { case (_, clusterLabels) => 
val labels = clusterLabels.map { case (_, label) => label }.toSeq 
val LabeLCounts = labels.groupBy(identity).values.map(_.size) © 
labels.size * entropy(labelCounts) 
}.collect() 


weightedClusterEntropy.sum / data.count() @ 
@ 对 每 个 数据 预测 徐 类 别 。 
@ 按 艇 提取 标号 集合 。 
@ 计算 集合 中 各 簇 标 号 出 现 的 次 数 。 
@ 根据 簇 大 小 计算 人 的 加 权 平 均 。 


























跟 以 前 一 样 ， 可 以 根据 上 面 的 分 析 结 果 大 致 看 出 的 合适 取 值 。 随 着 的 增加 ， 焕 不 一 定 会 
减 小 ， 因 此 我 们 找到 的 可 能 是 一 个 局 部 最 小 值 。 这 里 结果 同样 表明 , 大 取 180 可 能 比较 合理 ， 
因为 它 的 得 分 实际 上 低 于 150 以 及 210: 

















(60,0.03475331900669869) 
(90,0.051512668026335535) 
(120,0.02020028911919293) 
(150,0.019962563512905682) 
(180,0.01110240886325257) 
(210,0.01259738444250231) 
(240,0.01357435960663116) 
(270,0.010119881917660544) 


5.11 聚 类 实战 
现在 我 们 对 聚 类 模型 质量 比较 有 信心 了 。 最 后 我 们 来 对 规范 化 后 的 全 体 数据 进行 聚 类 ， 并 
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取 寻 180。 为 了 大 致 了 解 聚 类 结果 ， 这 里 我 们 同样 把 每 个 得 的 标号 打印 出 来 。 聚 类 的 结果 
中 大 部 分 属于 同一 徐 ， 以 及 其 他 的 少 部 分 禾 。 


val pipelineModel = fitpipeline4(data, 180) © 

val countByClusterLabel = pipelineModel.transform(data). 
select("cluster", "label"). 
groupBy("cluster", "label").count(). 
orderBy("cluster", "label") 

countByClusterLabel. show() 





+------- +---------- +------ + 
|cLuster| label| count| 
+------- +---------- +------ + 
9| back.| 324| 
0o| normal.| 42921| 
1| neptune.| 1039| 


| 

| 

| 

| 1|portsweep. | 9| 
| 1| satan. | 2| 
| 2| neptune.|365375| 
| 2|portsweep. | 141| 
| 3|portsweep. | 2| 
| 3| satan.| 10627| 
| 4| neptune.| 1033| 
| 4|portsweep. | 6| 
| 4| satan. | | 





@ 要 了 解 fitPipline4() 的 定义 ， 请 参见 附带 的 源 代码 。 








现在 可 以 建立 一 个 真正 的 异常 检测 系统 了 。 异 常 检测 时 需要 度量 新 数据 点 到 最 近 的 徐 质 心 
的 距离 。 如 果 这 个 距离 超过 某 个 国 值 ， 那 么 就 表示 这 个 新 数据 点 是 异常 的 。 我 们 可 以 把 国 
值 设 为 已 知 数据 中 离 中 心 最 远 的 第 100 个 点 到 中 心 的 距离 。 


import org.apache.spark.ml.linalg.{Vector, Vectors} 


val kMeansModel = pipelineModel.stages.last.asInstanceOf[KMeansModel] 
val centroids = kMeansModel.clusterCenters 


val clustered = pipelineModel.transform(data) 
val threshold = clustered. 
select("cluster", "scaledFeatureVector").as[(Int, Vector)]. 
map { case (cluster, vec) => Vectors.sqdist(centroids(cluster), vec) }. 
orderBy($"value" .desc) .take(100).Last @ 


@ 单个 输出 ， 隐 式 命名 为 “value”。 


最 后 一 步 就 是 在 新 数据 点 出 现 的 时 候 使 用 阀 值 进行 评估 。 举 个 例子 ， 可 以 用 Spark 
Streaming 对 来 源 于 Flume、Kafka 或 HDFS 文件 的 小 批量 数据 计算 函数 值 。 只 要 计算 结果 
超过 阔 值 就 触发 邮件 报警 或 更 新 数据 库 。 





























条 
尘 
Sl 
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作为 示例 ， 我 们 在 原始 数据 集 上 进行 异常 检查 。 这 样 就 能 找 出 输入 数据 中 我 们 认为 最 不 寻 
常 的 异常 数据 。 





val originalCols = data.columns 
val anomalies = clustered.filter { row => 
val cluster = row.getAs[Int]("cluster") 
val vec = row.getAs[Vector]("scaledFeatureVector") 
Vectors.sqdist(centroids(cluster), vec) >= threshold 
}.select(originalCols.head, originalCols.tail: *) ©@ 


anomalies.first() @ 


[9,tcp, telnet,SF,307,2374,0,0,1,0,0,1,0,1,0,1,3,1,0,0,0,0,1,1, 
0.0,0.0,0.0,0.0,1.0,0.0,0.0,69,4,0.03,0.04,0.01,0.75,0.0,0.0,， 
0.0,0.0,normal.] 


@ 注意 (String，String*) 这 一 选择 列 的 奇怪 签名 语法 。 
@ show() 方法 也 可 以 工作 ， 但 不 好 理解 了 。 




















这 个 例子 展示 了 对 DataFrame 稍微 不 同 的 操作 方式 。 纯 SQL 不 能 表达 平方 距离 的 计算 。 如 
前 所 述 ， 可 以 使 用 UDF 来 定义 返回 两 个 列 之 间 平 方 距离 的 函数 。 但 是 ， 也 可 以 采用 编程 
方式 使 用 Row 对 象 与 数据 中 的 每 一 行进 行 交互 ， 就 像 在 JDBC 中 一 样 。 


网 络 安全 专家 估计 很 快 就 能 看 出 为 什么 这 是 一 个 异常 连接 或 者 其 实 不 是 一 个 异常 连接 。 这 
个 数据 点 被 标记 为 normat， 但 需要 连接 到 69 台 不 同 的 主机 。 




















5.12 ”小结 


本 质 上 ，KMeansModel 模型 本 身 就 是 一 个 异常 检测 系统 。 前 面 我 们 在 代码 中 演示 了 如 何 用 
它 来 检测 数据 中 的 异常 。 这 些 代 码 同样 可 以 用 于 Spark Streaming (https://spark.apache. 
org/streaming/) 中 ， 在 数据 出 现时 以 准 实时 的 方式 对 数据 评分 ， 如 果 有 异常 就 触发 报警 
或 审查 。 
































MLlib 还 有 KMeansModel 的 一 个 变 体 ， 被 称 为 StreamingKMeans。StreamingKMeans 模型 
能 够 根据 增 量 对 簇 进行 更 新 。 有 了 StreamingKMeans ， 我 们 就 不 再 只 是 用 已 知 徐 群 评价 彰 
数据 ， 而 是 进一步 做 到 近似 地 学 习 新 数据 如 何 影响 聚 类 过 程 了 。 这 也 可 以 集成 到 Spark 
Streaming 上 。 然 而 ， 它 还 没有 对 照 新 的 DataFrame API 进行 更 新 。 























这 个 聚 类 模型 只 是 一 个 简单 的 实现 。 比 如 由 于 Spark MLlib 目前 只 提供 了 欧 氏 距离 一 种 实 
现 ， 所 以 本 章 示 例 中 我 们 采用 的 是 欧 氏 距离 。Spark MLlib 今后 版 本 可 能 会 提供 其 他 距离 函 
数 ， 比 如 马 氏 距离 (https://en.wikipedia.org/wiki/Mahalanobis_distance)， 这 样 就 可 能 会 更 好 
地 描述 特征 的 关联 关系 。 





我 们 还 可 以 用 更 复杂 的 聚 类 质量 评估 指标 (https://en.wikipedia.org/wiki/Cluster_analysis#Internal_ 
evaluation) ， 比 如 轮廓 系数 (Silhouette coefficient，https://en.wikipedia.org/wiki/Silhouette_ 
(clustering)) ， 来 选择 合适 的 上 值 。 这 些 指标 既 可 以 评价 得 内 点 的 紧密 程度 又 可 以 评价 点 
与 其 他 徐 之 间 的 紧密 程度 。 最 后 ， 除 了 开 均 值 聚 类 外 ， 我 们 还 可 以 尝试 其 他 模型 。 比 
如 ， 高 斯 混合 模型 (https://en.wikipedia.org/wiki/Mixture_model#Gaussian_mixture_model) 
或 DBSCAN (https:/en.wikipedia.org/wikiDBSCAN) 可 用 于 处 理 数据 点 和 复 中 心 之 
间 更 加 微妙 的 关系 。Spark MLlib 已 经 实现 了 高 斯 混合 模型 (http:/spark.apache.org/docs/ 
latest/ml-clustering.html#gaussian-mixture-model-gmm) 。Spark MLlib 的 后 续 版 本 或 其 他 基于 
它 的 库 可 能 会 提供 这 些 模型 的 实现 。 


















































当然 ， 聚 类 的 应 用 不 只 是 局 限 在 异常 检查 。 事 实 上 聚 类 往往 与 使 用 场景 相关 。 在 这 些 场景 
中 ， 实 际 的 得 很 重要 。 比 如 ， 可 以 根据 用 户 的 行为 、 人 和 偏好 和 属性 来 聚 类 。 每 个 钞 本 身 就 可 
能 代表 一 类 顾客 ， 将 这 类 顾客 区 分 出 来 是 很 有 意义 的 。 相 比 学 习 “20~34 岁 ” 和 “女性 ” 
之 类 的 普通 群 组 划分 ， 这 种 客户 划分 方法 的 数据 驱动 程度 更 高 。 
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第 6 章 


基于 潜在 语义 分 析 算 法 分 析 维 基 百 科 





作者 : 桑 迪 .里 扎 


去 年 的 斯 诺 登 夫妇 如 今 在 何方 ? 


Capt. Yossarian 





数据 工程 的 大 多 数 任务 都 是 把 数据 “组 装 ” 为 某 种 可 查询 的 格式 。 我 们 可 以 用 形式 化 语言 
对 结构 化 的 数据 进行 查询 。 例 如 ， 用 SQL 来 查询 结构 化 的 表 数 据 。 虽 然 访问 表 数 据 实 际 
上 也 非 易 事 ， 但 从 表面 上 看 ， 准 备 这 种 数据 还 是 很 直观 的 : 只 不 过 是 从 多 个 数据 源 读 取 数 
据 并 写 和 一 张 表 ， 然 后 可 能 再 进行 数据 清洗 或 智能 数据 融合 。 相 比 之 下 ， 处 理 非 结构 化 的 
文本 数据 则 要 困难 得 多 。 要 将 文本 数据 处 理 成 人 类 可 以 理解 的 格式 可 不 是 “组 装 ” 这 么 简 
单 。 即 使 情况 简单 ， 也 需要 给 它 建立 索引 ， 如 果 情 况 复 杂 ， 甚 至 还 得 做 某 种 “强制 性 ”的 
工作 。 给 包含 某 个 特定 词汇 的 文档 创建 标准 索引 可 以 加 快 查询 的 速度 。 但 有 时 候 我 们 希望 
找 出 文档 中 是 否 有 包含 某 个 特定 词汇 的 相关 概念 ， 而 不 是 仅仅 匹配 这 个 特定 词汇 的 字符 
串 。 标 准 索引 常常 无 法 发 气 文 本 主题 的 潜在 结构 。 















































潜在 语义 分 析 (latent semantic analysis, LSA) 是 一 种 自然 语言 处 理 和 信息 检索 技术 ， 其 目 
的 是 更 好 地 理解 文档 语料库 以 及 文档 中 词 项 的 关系 。 它 将 语料库 提炼 成 一 组 相关 概念 ， 每 
个 概念 捕捉 了 数据 中 一 个 不 同 的 主题 ， 且 通常 与 语料库 讨论 的 主题 相符 合 。 为 了 不 涉及 过 
多 数学 细节 ， 我 们 可 以 把 每 个 概念 看 成 由 3 个 属性 组 成 : 语料库 中 文档 的 相关 度 、 语 料 库 
中 词 项 的 相关 度 ， 以 及 概念 对 描述 主题 的 重要 性 评分 。 举 个 例子 ，LSA 可 能 发 现 一 个 概念 


与 “Asimov” 和 “robot” 高 度 相关 ， 与 文档 “foundation series” 和 “science fiction” 也 高 
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度 相 关 。 通 过 挑选 出 最 重要 的 概念 ，LSA 可 以 过 滤 掉 不 相关 的 噪声 ， 合 并 同时 出 现 的 主 
题 ， 从 而 简化 数据 。 








这 种 化 简 技 术 应 用 得 非常 广泛 。 它 可 以 计算 词 项 与 词 项 、 文 档 与 文档 、 词 项 与 文档 之 间 的 
相似 度 评 分 。 通 过 发 掘 语料库 中 的 不 同 主题 模式 ，LSA 算法 在 计算 相似 度 评分 时 不 再 简单 
地 基于 词 项 出 现 的 频率 和 两 个 词 项 同时 出 现 的 频率 ， 而 是 基于 更 深入 的 分 析 。 这 些 相 似 度 
度量 方法 适合 根据 词 项 查询 相关 文档 、 按 主题 将 文档 分 组 和 找到 相关 的 词 项 等 任务 。 


LSA 在 降 维 过 程 中 使 用 一 种 称 为 奇异 值 分 解 (SVD) 的 线性 代数 技术 。 我 们 可 以 把 SVD 
看 成 第 3 章 讨 论 的 ALS 分 解 的 升级 版 。 首 先 ， 需 要 根据 词 项 在 每 个 文档 中 的 出 现 次 数 构造 
一 个 文档 - 词 项 矩阵 。 移 阵 中 每 个 文档 对 应 一 列 ， 每 个 词 项 对 应 一 行 ， 和 矩 阵 的 每 个 元 素 代 
表 某 个 词 项 在 对 应 文档 中 的 重要 性 。 接 着 ，SVD 将 矩阵 分 解 成 三 个 矩阵 ， 其 中 一 个 矩阵 代 
表 文 档 中 出 现 的 概念 ， 另 一 个 代表 词 项 对 应 的 概念 ， 还 有 一 个 代表 每 个 概念 的 重要 度 。 这 
三 个 矩阵 的 结构 可 以 让 我 们 通过 去 掉 最 不 重要 的 概念 所 对 应 的 行 和 列 而 获得 原始 矩阵 的 一 
个 低 阶 近似 。 也 就 是 说 ， 将 这 些 低 阶 近似 矩阵 相 乘 可 以 得 到 原始 算 阵 的 近似 ， 去 掉 的 概念 
越 多 ， 就 越 失真 。 


本 章 将 基于 人 类 知识 库 的 潜在 语义 关系 讨论 如 何 构 建 人 类 知识 库 的 查询 模型 。 具 体 来 说 ， 
我 们 将 在 维基 百科 所 有 文档 组 成 的 语料库 上 运行 LSA 算法 ,文本 格式 的 语料库 大 小 约 为 
46 GB。 我 们 会 讨论 如 何 使 用 Spark 进行 数据 预 处 理 ， 包 括 数据 读 取 、 清 洗 并 转换 成 数值 。 
我 们 会 演示 如 何 计算 SVD， 并 解释 怎样 理解 和 利用 SVD 算法 。 









































除了 LSA 之 外 ，SVD 还 存在 其 他 很 多 用 途 ， 比 如 识别 气候 趋势 (如 著名 的 Michael 
Mann “曲棍球 杆 ” 曲 线 : https://en.wikipedia.org/wiki/Hockey_stick_controversy)、 人 脸 识 别 
和 图 像 压 缩 等 。Spark 的 实现 可 以 在 大 量 数据 集 上 执行 矩阵 因子 分 解 ， 这 就 将 该 新 技术 推 
向 了 全 新 的 应 用 领域 。 


6.1 文档 - 词 项 矩阵 


在 进行 分 析 之 前 ，LSA 算法 需要 将 语料库 中 的 文本 转换 成 文档 - 词 项 矩阵 。 该 矩阵 的 每 列 
代表 语料库 中 出 现 的 一 个 词 项 ， 每 行 代表 一 篇 文档 。 不 严格 地 讲 ， 和 矩阵 中 每 个 元 素 值 代表 
了 相应 列 上 的 词 项 相对 于 相应 行 上 的 文档 的 权重 。 人 们 提出 了 几 种 方法 来 表示 这 种 权重 ， 
其 中 用 得 最 多 的 是 用 词 项 频率 除 以 文档 频率 ， 该 方法 通常 简写 为 TF-IDF (term frequency 
times inverse document frequency)。 下 面 是 这 个 公式 的 Scala 代码 版 本 。 我 们 实际 上 并 不 会 
使 用 这 段 代 码 ， 因 为 Spark 提供 了 自己 的 实现 。 




















def termDocWeight(termFrequencyInDoc: Int, totalTermsInDoc: Int， 
termFreqInCorpus: Int, totalDocs: Int): Double = { 
val tf = termFrequencyInDoc.toDouble / totalTermsInDoc 
val docFreq = totalDocs.toDouble / termFreqInCorpus 
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val idf = math.Log(docFreq) 
tf * idf 
} 
TF-IDF 体现 了 我 们 对 词 项 与 文档 关联 度 的 两 个 直观 理解 。 第 一 ,一 个 词 项 在 文档 中 出 现 的 
次 数 越 多 ， 它 相对 于 文档 的 重要 性 越 高 。 第 二 ， 总 体 上 讲 词 项 是 不 平等 的 。 文 档 中 出 现 语 
料 库 中 罕见 词 项 的 意义 比 出 现 常见 词 项 更 大 ， 因 此 指标 就 是 词 项 在 所 有 语料库 中 出 现 次数 
的 倒数 。 


词 项 在 语料库 中 的 频率 分 布 往往 呈 指 数 型 。 一 个 常用 词 出 现 的 次 数 往往 是 一 个 次 常用 词 出 
现 次 数 的 十 几 倍 ， 是 一 个 罕见 词 出 现 次 数 的 一 百 多 倍 。 如 果 计 算 指标 时 直接 除 以 原始 文档 
频率 ， 罕 见 词 的 权重 就 会 过 大 ， 这 时 相 比 之 下 其 他 非 罕见 词 的 权重 几乎 可 以 忽略 不 计 了 。 
为 了 刻画 这 种 指数 分 布 ， 算 法 对 逆 文 档 频率 取 对 数 。 这 样 文档 频率 的 差别 就 从 乘 数 级 变 成 
了 加 数 级 。 


这 个 模型 依赖 几 个 假设 。 它 把 每 个 文档 看 成 词 项 的 集合 ， 也 就 是 说 算法 没有 考虑 词 项 的 
顺序 、 句 式 结 构 或 否定 情况 。 由 于 只 针对 每 个 词 项 ， 模 型 很 难处 理 多 义 词 。 举 个 例子 ， 
“Radiohead is the best band ever” 和 “I broke a rubber band” 这 两 句 话 中 的 词 项 “band” 含 
义 不 同 ， 模 型 对 此 就 不 能 区 分 。 如 果 两 个 句子 在 语料库 中 出 现 的 次 数 相同 ， 模 型 可 能 就 会 
把 Radiohead 和 rubber 关联 在 一 起 。 


本 章 所 用 的 语料库 有 1000 万 个 文档 。 如 果 把 那些 罗 泌 的 技术 术语 包含 在 内 ， 英 语 语言 总 
共 约 有 100 万 个 词 项 。 本 章 的 语料库 只 包含 其 中 的 大 约 儿 万 个 。 因 为 语料库 的 文档 数 远 远 
大 于 词 项 数 ， 所 以 我 们 的 文档 - 词 项 矩阵 应 该 是 行 矩阵 ， 由 许多 稀 玻 向 量 组 成 ， 每 个 向 量 
代表 一 个 文档 。 


将 原始 的 维基 百科 导出 文件 转 成 文档 - 词 项 矩阵 需要 进行 许多 预 处 理 。 首 先 ， 输 入 是 一 个 
巨大 的 XML 文件 ， 其 中 每 个 文档 由 <page> 标签 分 隔 。 我 们 需要 先 对 输入 进行 拆 分 ， 然 后 
才能 将 维基 百科 格式 转换 成 纯 文 本 格式 。 接 着 纯 文 本 被 拆 成 词 条 (token) 。 将 词 条 的 不 同 
曲折 词 绥 还 原 为 词根 的 过 程 称 为 词 形 归 并 (lemmatization) 。 经 过 词 形 归 并 之 后 得 到 的 词 条 
可 以 用 于 计算 词 项 频率 和 文档 频率 。 最 后 我 们 将 这 些 频 率 组 织 成 需要 的 向 量 对 象 。 在 本 书 
的 代码 库 中 ， 执 行 这 些 步 又 的 所 有 代码 都 封装 在 AssembleDocumentTermMatrix 类 中 。 


预 处 理 的 前 几 步 都 可 以 根据 文档 进行 完全 并 行 化 (对 应 Spark 中 的 一 组 map 函数 )， 但 计算 
逆 文 档 频率 时 需要 对 所 有 文档 进行 汇总 。 可 以 利用 许多 通用 的 NLP 工具 和 维基 百科 特有 的 
提取 工具 来 完成 这 些 步骤 。 


6.2 ”获取 数据 
我 们 可 以 从 维基 百科 上 导出 所 有 文章 ， 导 出 的 文件 是 一 个 巨大 的 XML 文件。 我 们 先 从 
https://dumps.wikimedia.org/enwiki 下 载 这 个 XML 文件 ， 然 后 将 这 个 文件 写 入 HDFS ， 示 例 
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代码 如 下 : 


这 个 


$ curl -s -L https://dumps.wikimedia.org/enwiki/latest/\ 
$ enwiki-latest-pages-articles-multistream.xml.bz2 \ 
$ | bzip2 -cd \ 


$ | hadoop fs -put - wikidump.xml 


过 程 要 花 一 段 时 间 。 














最 好 可 以 使 用 包含 几 个 节点 的 小 集群 来 处 理 这 种 体 量 的 数据 。 如 果 在 本 地 机 器 上 运行 本 章 
的 代码 ， 使 用 维基 百科 的 导出 页 面 功能 (https:Wen.wikipedia.org/wiki/Special:Export) 生成 
一 个 较 小 的 转 储 是 一 个 更 好 的 选择 。 尝 试 从 一 个 有 很 多 页 面 和 几 个 子 类 目的 类 目 ， 比 如 
Megafauna 和 Geometry， 下 载 所 有 页 面 。 如 果 要 运行 以 下 代码 ， 请 将 转 储 下 载 到 ch06-lsa/ 
目录 下 ， 并 重 命 名 为 wikidump.xml。 


6.3 分析 和 准备 数据 


下 




































































看 是 导出 文件 的 开头 部 分 : 





<page> 
<title>Anarchism</title> 
<ns>0</ns> 
<id>12</id> 
<revision> 
<id>584215651</id> 
<parentid>584213644</parentid> 
<timestamp>2013-12-02T15:14:01Z</timestamp> 
<contributor> 
<username>AnomieBOT</username> 
<id>7611264</id> 
</contributor> 
<comment>Rescuing orphaned refs (&quot;autogeneratedi&quot; from rev 
584155010; &quot;bbc&quot; from rev 584155010)</comment> 
<text xml:space="preserve">{{Redirect|Anarchist|the fictional character| 
Anarchist (comics)}} 
{{Redirect|Anarchists}} 
{{pp-move-indef}} 
{{Anarchism sidebar}} 
'''Anarchism''' is a [[political philosophy]] that advocates [[stateless society| 
stateless societies]] often defined as [[self-governance|self-governed]] 
voluntary institutions,&lt;ref&gt;&quot;ANARCHISM, a social philosophy that 
rejects authoritarian government and maintains that voluntary institutions are 
best suited to express man's natural social tendencies.&quot; George Woodcock. 
&quot;Anarchism&quot; at The Encyclopedia of Philosophy&lt;/ref&gt;&lt;ref&gt; 
&quot;In a society developed on these lines, the voluntary associations which 
already now begin to cover all the fields of human activity would take a still 
greater extension so as to substitute 
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现在 打开 Spark shell。 为 了 简化 工作 ， 我 们 使 用 几 个 工具 包 。GitHub 上 有 一 个 Maven 项 


目 ， 





我 们 可 以 用 它 来 生成 一 个 JAR 文件 ， 这 个 JAR 文件 包含 所 有 这 些 依赖 包 : 


$ cd ch06-Lsa/ 
$ mvn package 
$ spark-shell --jars target/ch06-lsa-2.0.0-jar-with-dependencies.jar 


在 开始 处 理 这 个 转 储 之 前 ， 我 们 需要 去 掉 格 式 并 得 到 内 容 。 为 了 方便 后 续 处 理 ， 需 要 先生 


成 一 


Cloud9 根据 Apache Mahout 项 目 编写 了 一 个 XMLInputFormat 类 ， 这 个 类 可 以 把 巨大 的 维基 





个 (标题 、 文 档 内 容 ) 二 元 组 的 数据 集 。Cloud9 项 目 提供 了 一 组 十 分 实用 的 API 来 完 


个 任务 。 








小 


百科 导出 文件 拆 成 文档 。 现 在 我 们 用 这 个 类 来 创建 一 个 数据 集 : 





import edu.umd.cloud9 .collection.XMLInputFormat 
import org.apache.hadoop.conf.Configuration 
import org.apache.hadoop.io._ 


val path = "wikidump.xml" 

@transient val conf = new Configuration() 

conf.set(XMLInputFormat.START_TAG_KEY, "<page>") 

conf.set(XMLInputFormat.END_TAG_KEY, "</page>") 

val kvs = spark.sparkContext.newAPIHadoopFile(path, classOf[XMLInputFormat], 
classOof[LongWritable], classOof[Text], conf) 

val rawXmls = kvs.map(_._2.toString).toDS() 


要 讲述 如 何 将 维基 百科 的 XML 文件 转 成 纯 文 本 估计 需要 整整 一 章 。 幸 运 的 是 ， 我 们 可 以 
利用 Cloud9 项 目 提供 的 API 来 完成 所 有 工作 : 


import edu.umd.cloud9.collection.wikipedia.language._ 
import edu.umd.cloud9 .collection.wikipedia._ 


def wikixmlToPlainText(pageXml: String): Option[(String, String)] = { 
// 在 从 Cloud9 编 写 完成 后 ， 维 基 百 科 对 它们 的 转 储 进行 了 一 点 点 更 新 
// 所 以 有 时 需要 用 这 个 替换 的 小 技巧 来 完成 解析 工作 
val hackedPageXmL = pageXml.replaceFirst( 
"<text xml:space=\"preserve\" bytes=\"\\d+\">" 
"<text xml:space=\"preserve\">") 




















val page = new EnglishWikipediapage() 
Wikipediapage.readPage(page, hackedPageXml) 
if (page.isEmpty) None 

else Some((page.getTitle, page.getContent)) 


} 


val docTexts = rawXmls.filter(_ != null).flatMap(wikiXmlToPlainText) 





6.4 词 形 归并 


现在 我 们 得 到 了 纯 文本 形式 的 语料库 ， 接 下 来 要 提炼 出 一 组 词 项 。 这 一 步 有 儿 点 需要 特别 
注意 。 第 一 ， 像 the 和 is 之 类 的 常用 词 不 会 为 模型 提供 有 用 信息 ， 却 占用 了 大 量 空间 。 去 
掉 这 些 停 用 词 (stop word) 不 但 能 节省 空间 ， 还 能 提高 忠实 度 。 第 二 ， 相 同意 思 的 词 项 
可 能 有 不 同 词 形 。 比 如 ，monkey 和 monkeys 不 应 该 算 成 不 同 词 项 ， 再 比如 nationalize 和 
nationalization。 把 这 些 不 同 届 折 词 级 合并 成 单个 词 项 的 过 程 称 为 词 干 还 原 (stemming) 或 
词 形 归并 (lemmatization)。 词 干 还 原 指 去 除 单 词 两 端 词 级 的 启发 式 技术 ， 词 形 归并 方法 则 
更 加 规则 化 。 比 如 前 者 可 能 将 drew 截断 为 dr， 而 后 者 则 更 可 能 给 出 draw 这 个 正确 结果 。 
Stanford Core NLP 项 目 是 一 个 非常 优秀 的 词 干 规约 工具 ， 它 提供 了 Java API， 我 们 可 以 在 
Scala 中 调用 。 






































下 面 的 代码 接收 纯 文本 形式 的 文档 数据 集 ， 对 文档 进行 词 形 归并 ， 过 滤 掉 其 中 的 停 用 词 。 
请 注意 ， 此 代码 依赖 于 一 个 名 为 stopwords.txt 的 停 用 词 文件 ， 这 个 文件 放 在 附带 的 源 代码 
库 中 ， 应 提前 下 载 到 当前 目录 下 : 

















TT 








import scala.collection.JavaConverters._ 
import scala.collection.mutable.ArrayBuffer 
import edu.stanford.nlp.pipeline._ 

import edu.stanford.nlp.ling.CoreAnnotations._ 
import java.util.Properties 

import org.apache.spark.sql.Dataset 


def createNLPPipeline(): StanfordCoreNLP = { 
val props = new Properties() 
props.put("annotators", "tokenize, ssplit, pos, lemma") 
new StanfordCoreNLP(props) 

} 


def isOnlyLetters(str: String): Boolean = { 
str.forall(c => Character.isLetter(c)) 


} 


def plainTextToLemmas(text: String, stopWords: Set[String], 
pipeline: StanfordCoreNLP): Seq[String] = { 
val doc = new Annotation(text) 
pipeline.annotate(doc) 


val lemmas = new ArrayBuffer[String]() 
val sentences = doc.get(classOf[SentencesAnnotation]) 
for (sentence <- sentences.asScala; 
token <- sentence.get(classOf[TokensAnnotation]).asScala) { 
val Lemma = token.get(classOf[LemmaAnnotation]) 
if (Lemma.Length > 2 && !stopWords.contains(lemma) 
&& isOnlyLetters(lemma)) { © 
Lemmas += Lemma.toLowerCase 
} 
} 
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Lemmas 


} 


val stopWords = scala.io.Source.fromFile("stopwords.txt").getLines().toSet 
val bStopWords = spark.sparkContext.broadcast(stopWords) @ 


val terms: Dataset[(String, Seq[String])] = 
docTexts.mapPartitions { iter => 
val pipeline = createNLPPipeline() 
iter.map { case(title, contents) => 
(title, plainTextToLemmas(contents, bStopWords.value, pipeline)) 


} 
1} 


@ 为 剔除 垃圾 词 元 ， 需 对 词 元 设 定 最 低 要 求 。 
广播 停 用 词 可 以 节省 executor 的 内 存 空间 。 


@ 这 里 使 用 了 mapPartitions， 对 每 个 分 区 只 初始 化 一 个 NLP 管道 对 象 ， 而 不 是 为 每 
文档 初始 化 一 个 NLP 管道 对 象 。 


© 


6.5 计算 TF-IDF 


现在 terms 指向 一 个 词 项 序列 数据 集 ， 每 个 序列 对 应 一 个 文档 。 下 一 步 我 们 要 计算 每 个 词 
项 在 每 个 文档 和 整个 语料库 中 的 频率 。spark.ml 包 中 包含 了 计算 TF-IDF 的 Estimator 和 
Transformer 的 实现 。 





为 了 使 用 这 些 Estimator 和 Transformer， 首 先 需要 将 数据 集 转换 成 DataFrame: 





val termsDF = terms.toDF("title", "terms") 


过 滤 掉 没有 词 或 者 只 有 一 个 词 的 文档 : 





val filtered = termsDF.where(size($"terms") > 1) 


CountVectorizer ee Estimator。CountVectorizer 扫描 数据 来 建立 一 张 词 汇 
表 。 该 词汇 表 其 实 就 是 一 个 整数 到 词 项 的 映射 ， 这 个 词汇 表 封 装 到 CountVectorizerModel 
这 个 Transformer 中 。 然 CountVectorizerModel 为 每 个 文档 生成 一 个 词 频 的 向 
量 。 词 汇 表 中 每 个 词 项 在 该 向 量 中 都 有 一 个 组 成 部 分 ， 每 个 组 成 部 分 的 值 是 词汇 在 文档 中 
出 现 的 次 数 。Spark 在 这 里 使 用 稀疏 向 量 ， 因 为 每 个 文档 通常 只 会 用 到 整个 词汇 表 中 的 一 
小 部 分 

















import org.apache.spark.ml.feature.CountVectorizer 


val numTerms = 20000 

val countVectorizer = new CountVectorizer(). 
setInputCol("terms").setOutputCol("termFreqs"). 
setVocabSize(numTerms) 





val vocabModel = countVectorizer.fit(filtered) 
val docTermFreqs = vocabModel.transform(filtered) 


请 注意 setVocabSize 的 用 法 。 这 个 语料库 包含 了 几 百 万 个 词 项 ， 但 很 多 都 是 非常 专业 的 单 


词 ， 仅 出 现在 一 两 个 文档 中 。 过 滤 使 用 频率 低 的 词 项 可 以 提高 性 能 并 消除 噪声 。 当 我 们 在 
Estinator 上 设置 词典 大 小 时 ， 它 会 保留 最 常 使 用 的 单词 。 











得 到 的 DataFrame 在 后 面 的 章节 中 将 至 少 用 到 两 次 : 一 次 用 于 计算 逆 文档 频率 ， 一 次 用 于 
计算 最 终 文档 一 词 项 的 和 矩阵。 所 以 ， 将 它 缓 存 起 来 是 个 不 错 的 做 法 : 








docTermFreqs .cache() 
现在 有 了 文档 频率 ， 接 下 来 计算 逆 文 档 频 率 。 此 处 使 用 IDF， 这 又 是 一 个 Estimator ， 我 们 
用 它 来 计算 每 个 词 项 在 语料库 中 出 现 的 次 数 ， 然 后 使 用 这 些 计 数 来 计算 每 个 词 项 的 IDF 比 
例 因 子 。 它 产生 的 IDFModel 可 以 将 这 些 比例 因子 应 用 于 数据 集中 每 个 向 量 的 每 一 个 词 项 。 











import org.apache.spark.mL.feature.IDF 


val idf = new IDF().setInputCol("termFreqs").setOutputCol("tfidfVec") 
val idfModel = idf.fit(docTermFreqs) 
val docTermMatrix = idfModel.transform(docTermFreqs).select("title", "tfidfVec") 


| 


把 数据 从 DataFrame 转换 成 向 量 和 和 矩阵 的 那 一 刻 起 ， 我 们 就 失去 了 通过 字符 串 访问 数据 
的 能 力 。 因 此 ， 如 果 想 要 将 我 们 所 学 到 的 内 容 与 可 识别 的 实体 联系 起 来 ， 那 么 将 和 矩阵 中 的 
位 置 映射 到 原始 语料库 中 的 词 项 和 文档 标题 是 十 分 重要 的 。 词 向 量 中 的 位 置 等 同 于 文档 一 
词 项 矩阵 中 的 列 。 这 些 位 置 到 词 项 字符 串 的 映射 已 经 保存 在 我 们 的 CountVectorizerModel 
中 。 我 们 可 以 通过 如 下 方式 访问 它 : 


























val termIds: Array[String] = vocabModel.vocabulary 


创建 一 个 行 ID 到 文档 标题 的 映射 要 更 复杂 一 些 ， 我 们 可 以 使 用 zipWithuniqueId 方法 获取 
这 个 映射 ， 它 将 DataFrame 中 的 每 一 行 与 一 个 确定 的 唯一 ID 关联 起 来 。 我 们 的 操作 基于 
以 下 基本 事实 : 对 DataFrame 做 某 种 转换 ， 然 后 调用 zipWithuniqueId 函数 ， 转 换 后 的 行 
的 唯一 ID 保持 不 变 ， 只 要 所 做 的 转换 不 改变 DataFrame 的 行 数 和 分 区 。 因 此 我 们 可 以 把 
变换 后 的 行 和 DataFrame 中 的 行 ID 关联 起 来 ， 这 样 就 能 关联 到 文档 标题 了 : 

















val docIds = docTermFreqs.rdd.map(_.getString(0)). 
zipWithUniqueId(). 
map(_.swap). 
collect().toMap 


6.6 ”奇异 值 分 解 


现在 有 了 文档 - 词 项 抢 阵 M， 我 们 的 分 析 工 作 就 可 以 进入 抢 阵 分 解 和 降 维 的 步骤 了 。 
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MLlib 提供 了 一 个 奇异 值 分 解 算 法 (SVD) 的 实现 ， 能 处 理 巨型 矩阵 。 奇 异 值 分 解 算法 接 
受 一 个 mxn 维和 矩阵 ， 返 回 3 个 和 矩阵。 这 3 个 矩阵 的 乘积 近似 等 于 原始 的 m x n 维 矩 阵 : 














M~ USV 
矩阵 列举 如 下 。 
。_U 为 mxk 维 矩阵 ，U 中 的 列 是 文档 空间 的 正 交 基 。 


。 5 为 kxk 型 对 角 阵 ， 每 个 对 角 元 素 代 表 一 个 概念 的 强度 。 
。 了 为 kxn 型 矩阵 ,中 的 列 是 词 项 空间 的 正 交 基 。 

















对 于 LSA 模型 ，m 是 文档 的 个 数 ，n 是 词 项 的 个 数 。 分 解 过 程 有 一 个 参数 k， 其 值 不 大 于 
n， 代 表 要 保留 的 概念 的 个 数 。 当 f=n 时 ， 分解 矩阵 的 乘积 精确 重 构 出 原始 矩阵 。k<n 时 ， 
分 解 算 了 泗 的 乘积 是 原始 矩阵 的 一 个 低 阶 近似 。 一 般 的 取 值 要 远 小 于 n。SVD 算法 保证 在 
最 多 只 采用 大 个 概念 的 约束 下 ， 算 法 结果 是 对 原始 抢 阵 的 最 优 逼近 (由 L2 范式 定义 ， 也 
就 是 误差 平方 和 最 小 )。 














在 撰写 本 文 时 ， 基 于 DataFrame 的 spark.ml 包 中 没有 SVD 的 实现 。 但 是 ， 基 于 RDD 的 旧 

版 spark.mllib 中 却 有 。 这 意味 着 为 了 计算 文档 一 词 项 矩阵 ， 我 们 需要 将 DataFrame 转换 成 

RDD[Vector]。 最 重要 的 是 ，sparkml 和 spark.mllib 包 都 有 自己 的 Vector 类 ， 之 前 我 们 使 用 的 

spark.ml 的 Transformer 生成 的 是 spark.ml 中 的 Vector 对 象 ， 但 SVD 实现 只 接受 spark.mllib 

中 的 Vector 对象 ， 所 以 需要 进行 转换 。 虽 然 这 段 代 码 不 够 优雅 ， 但 是 它 可 以 达成 目的 ; 
import org.apache.spark.mllib.linalg.{Vectors, 


Vector => MLLibVector} 
import org.apache.spark.ml.linalg.{Vector => MLVector} 


val vecRdd = docTermMatrix.select("tfidfVec").rdd.map { row => 
Vectors.fromML(row.getAs[MLVector]("tfidfVec")) 
} 


要 得 到 和 矩阵 的 奇异 值 分 解 ， 只 要 将 行 向 量 RDD 包装 为 RowMatrix 并 调用 computeSvD 即 可 ， 
代码 如 下 : 





import org.apache.spark.mllib.linalg.distributed.RowMatrix 


vecRdd .cache() 

val mat = new RowMatrix(vecRdd) 

val k = 1000 

val svd = mat.computeSVD(k, computeU=true) 


由 于 计算 过 程 需要 多 次 使 用 RDD 数据 ， 所 以 我 们 应 该 事先 将 RDD 缓存 起 来 。 驱 动 程序 端 
运算 的 空间 复杂 度 为 O(n) ， 每 个 任务 的 空间 复杂 度 为 O(n)， 需 要 使 用 数据 的 次 数 为 O(D。 


注意 ， 词 项 空间 中 的 每 个 向 量 都 有 一 个 词 项 权重 ， 文 档 空 间 中 的 每 个 向 量 都 有 一 个 文档 权 











重 ， 概 念 空间 中 的 每 个 向 量 都 有 一 个 概念 权重 。 每 个 词 项 、 文 档 或 概念 都 在 各 自 空 间 中 定义 
了 一 个 轴 ， 词 项 、 文 档 和 概念 的 权重 就 是 在 轴 方 向 上 的 长 度 。 每 个 词 项 或 文档 向 量 都 可 以 映 
射 为 概念 空间 里 的 相应 向 量 。 每 个 概念 向 量 可 能 对 应 多 个 词 向 量 和 文档 向 量 ， 其 中 包括 一 
个 规范 化 词 向 量 和 文档 向 量 ， 对 概念 向 量 进行 逆向 转换 就 得 到 规范 化 的 词 向 量 和 文档 向 量 。 





















































VV 是 nxk 型 矩阵 ， 每 一 行 对 应 一 个 词 项 ， 每 一 列 对 应 一 个 概念 。 这 个 矩阵 定义 了 词 项 空间 
到 概念 空间 的 映射 。 其 中 ， 词 项 空间 中 每 个 点 是 一 个 n 维 向 量 ， 向 量 的 每 个 元 素 是 每 个 词 
项 的 权重 ， 概 念 空间 中 每 个 点 是 一 个 维 向 量 ， 向 量 的 每 个 元 素 是 每 个 概念 的 权重 。 


类 似 地 ，U 是 m x 型 矩阵 ，U 中 每 一 行 对 应 一 个 文档 ， 每 一 列 对 应 一 个 概念 。U 定义 了 
一 个 文档 空间 到 概念 空间 的 映射 。 


S 是 kxk 型 对 角 阵 ， 其 中 保存 了 奇异 值 。S 中 每 个 对 角 线 上 的 元 素 对 应 了 一 个 概念 (因此 
对 应 了 广 和 UU 中 的 一 列 )。 奇 异 值 的 大 小 对 应 了 概念 的 重要 程度 ， 亦 即 概 念 在 解释 不 同 主 
题 时 的 能 力 。SVD 的 一 种 可 能 但 效率 不 高 的 实现 是 先 得 到 阶 分 解 ， 具体 做 法 是 先进 行 n 
阶 分 解 ， 不 停 地 去 掉 n-k 个 最 小 奇异 值 ， 直 到 只 剩 下 个 奇异 值 (当然 还 有 U 和 六 中 对 应 
的 列 )。LSA 算法 的 一 个 要 点 是 概念 中 只 有 一 小 部 分 对 表示 数据 是 重要 的 。5 甜 阵 中 的 元 素 
直接 表示 每 个 概念 的 重要 性 ， 它 们 正好 是 MM 的 特征 值 (eigenvalue，https://en.wikipedia. 
org/wiki/Eigenvalues_and_eigenvectors) 的 平方 根 。 


6.7” 找 出 重要 的 概念 


SVD 算法 的 输出 是 一 组 数值 。 我 们 该 如 何 验证 这 些 数值 实际 有 没有 作用 呢 ? 了 和 矩阵 表示 
了 词 项 对 概念 的 重要 程度 。 如 前 所 述 ， 每 个 概念 都 对 应 天 中 一 列 ， 每 个 词 项 都 对 应 入 中 一 
行 。 每 个 元 素 可 以 理解 为 词 项 相对 于 概念 的 相关 度 。 因 此 我 们 可 以 用 如 下 代码 得 到 与 那些 
最 重要 的 概念 最 相关 的 词 项 : 
















































































import org.apache.spark.mllib. linalg.{Matrix, 
SingularValueDecomposition} 
import org.apache.spark.mllib.linalg.distributed.RowMatrix 


def topTermsInTopConcepts( 
svd: SingularValueDecomposition[RowMatrix, Matrix], 
numConcepts: Int, 
numTerms: Int, termIds: Array[String]) 
: Seq[Seq[(String, Double)]] = { 
val v = svd.V 
val topTerms = new ArrayBuffer[Seq[(String, Double)]]() 
val arr = Vv.toArray 
for (i <- 0 until numConcepts) { 
val offs = i * V.numRows 
val termWeights = arr.slice(offs, offs + v.NnumRows).zipWithIndex 
val sorted = termWeights.sortBy(-_._1) 
topTerms += sorted.take(numTerms).map { 
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case (score, id) => (termIds(id), score) ©@ 
} 
} 


topTerms 


} 





@ 最 后 一 步 找 到 词 项 向 量 中 的 位 置 对 应 的 真实 词 项 。 回 顾 一 下 ，termIds 是 一 个 整数 到 词 


最 
项 的 上 映射， 可 以 从 CountVectorizer 获取 。 





注意 , 了 是 驱动 程序 进程 内 存 里 的 一 个 本 地 矩阵， 以 非 分 布 式 的 计算 方式 得 到 。 类 似 地 ， 
我 们 可 以 通过 U 得 到 和 重要 概念 相关 的 词 项 ， 但 由 于 U 是 一 个 分 布 式 算 阵 ， 所 以 代码 稍 
有 不 同 。 


def topDocsInTopConcepts( 
svd: SingularValueDecomposition[RowMatrix, Matrix], 
numConcepts: Int, numDocs: Int, docIds: Map[Long, String]) 
: Seq[Seq[(String, Double)]] = { 
val uy = svd.U 
val topDocs = new ArrayBuffer[Seq[(String, Double)]]() 
for (i <- 0 until numConcepts) { 
val docWeights = u.rows.map(_.toArray(i)).zipWithUniqueId() @ 
topDocs += docWeights.top(numDocs).map { 
case (score, id) => (docIds(id), score) 
} 
} 
topDocs 


} 


@ 上 一 节 讨 论 了 monotonically_increasing_id/zipWithUniqueId 的 技巧 ， 这 使 得 我 们 能 够 
保持 矩阵 中 的 每 一 行 ， 以 及 矩阵 派生 的 DataFrame 中 的 每 一 行 之 间 的 连续 性 ， 其 中 也 
包括 标题 的 连续 性 。 


现在 我 们 来 看 看 前 面 的 一 些 概念 : 

















val topConceptTerms = topTermsInTopConcepts(svd，4，10，termIds) 

val topConceptDocs = topDocsInTopConcepts(svd, 4, 10, docIds) 

for ((terms, docs) <- topConceptTerms.zip(topConceptDocs)) { 
printLn("Concept terms: " + terms.map(_._1).mkString(", ")) 
println("Concept docs: " + docs.map(_._1).mkString(", ")) 
println() 

} 


Concept terms: summary, licensing, fur, logo, album, cover, rationale, 
gif, use, fair 

Concept docs: File:Gladys-in-grammarland-cover-1897.png, 
File:Gladys-in-grammarland-cover-2010.png, File:1942ukrpoljudeakt4.jpg, 
File:7ZakeAMapi6nc.jpg, File:Baghdad-texas.jpg, File:Realistic.jpeg, 
File:DuplicateBoy.jpg, File:Garbo-the-spy.jpg, File:Joysagar.jpg, 
File:RizalHighSchoollogo.jpg 


Concept terms: disambiguation, william, james, john, iran, australis, 
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township, charles, robert, river 
Concept docs: G. australis (disambiguation), F. australis (disambiguation), 
U. australis (disambiguation), L. maritima (disambiguation), 
G. maritima (disambiguation), F. japonica (disambiguation), 
P. japonica (disambiguation), Velo (disambiguation), 
Silencio (disambiguation), TVT (disambiguation) 


Concept terms: licensing, disambiguation, australis, maritima, rawal, 
upington, tallulah, chf, satyanarayana, valérie 

Concept docs: File:Rethymno.jpg, File:Ladycarolinelamb.jpg, 
File:KeyAirlines.jpg, File:NavyCivValor.gif, File:Vitushka.gif, 
File:DavidViscott.jpg, File:Bigbrotheri3cast.jpg, File:Rawal Lake1.JPG, 
File:Upington location.jpg, File:CHF SG Viewofaltar01.JPG 


Concept terms: licensing, summarysource, summaryauthor, wikipedia, 
summarypicture, summaryfrom, summaryself, rawal, chf, upington 

Concept docs: File:Rethymno.jpg, File:Wristlock4.jpg, File:Meseanlol.jpg, 
File:Sarles.gif, File:SuzlonWinMills.JPG, File:Rawal Lake1.JPG, 
File:CHF SG Viewofaltar01.JPG, File:Upington location.jpg, 
File:Driftwood-cover.jpg, File:Tallulah gorge2.jpg 


Concept terms: establishment, norway, country, england, spain, florida, 
chile, colorado, australia, russia 

Concept docs: Category:1794 establishments in Norway, 
Category:1838 establishments in Norway, 
Category:1849 establishments in Norway, 
Category:1908 establishments in Norway, 
Category:1966 establishments in Norway, 
Category:1926 establishments in Norway, 
Category:1957 establishments in Norway, 
Template:EstcatCountryistMillennium, 
Category:2012 establishments in Chile, 
Category:1893 establishments in Chile 








Ss 


第 一 个 概念 对 应 的 文档 看 起 来 都 是 关于 图 片 的 ， 词 项 看 起 来 都 与 图 片 属性 和 授权 相关 。 
第 二 个 概念 看 起 来 是 一 个 答疑 页 面 。 这 说 明 维 基 百 科 导 出 文件 除了 包含 维基 百科 上 的 原 
始 文章 ， 很 可 能 还 包含 一 些 管 理 页 面 和 讨论 页 面 。 通 过 检查 中 间 阶 段 的 输出 ， 我 们 可 
以 尽早 发 现 这 类 问题 。 幸 运 的 是 ，Cloud9 项 目 提 供 了 过 滤 这 些 页 面 的 功能 。 修 改 后 的 
wikiXmLToPLainText 方法 代码 如 下 : 










































































pa 





def wikiXmlToPlainText(xml: String): Option[(String, String)] = { 


if (page.isEmpty || !page.isArticle || page.isRedirect || 


page.getTitle.contains("(disambiguation)")) { 
None 
} else { 
Some((page.getTitle, page.getContent)) 
} 


} 


在 过 滤 后 的 文档 集 上 重新 运行 处 理 过 程 ， 就 会 得 到 如 下 结果 ， 它 看 起 来 比 上 一 次 的 结果 更 
加 合理 : 
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Concept terms: disambiguation, highway, school, airport, high, refer, 
number, squadron, list, may, division, regiment, wisconsin, channel, 
county 

Concept docs: Tri-State Highway (disambiguation), 

Ocean-to-Ocean Highway (disambiguation), Highway 61 (disambiguation), 
Tri-County Airport (disambiguation), Tri-Cities Airport (disambiguation), 
Mid-Continent Airport (disambiguation), 99 Squadron (disambiguation), 
95th Squadron (disambiguation), 94 Squadron (disambiguation), 

92 Squadron (disambiguation) 


Concept terms: disambiguation, nihilistic, recklessness, sullen, annealing, 
negativity, initialization, recapitulation, streetwise, pde, pounce, 
revisionism, hyperspace, sidestep, bandwagon 

Concept docs: Nihilistic (disambiguation), Recklessness (disambiguation), 
Manjack (disambiguation), Wajid (disambiguation), Kopitar (disambiguation), 
Rocourt (disambiguation), QRG (disambiguation), 

Maimaicheng (disambiguation), Varen (disambiguation), Gvr (disambiguation) 


Concept terms: department, commune, communes, insee, france, see, also, 
southwestern, oise, marne, moselle, manche, eure, aisne, iseére 

Concept docs: Communes in France, Saint-Mard, Meurthe-et-Moselle, 
Saint-Firmin, Meurthe-et-Moselle, Saint-Clément, Meurthe-et-Moselle, 
Saint-Sardos, Lot-et-Garonne, Saint-Urcisse, Lot-et-Garonne, Saint-Sernin, 
Lot-et-Garonne, Saint-Robert, Lot-et-Garonne, Saint-Léon, Lot-et-Garonne, 
Saint-Astier, Lot-et-Garonne 


Concept terms: genus, species, moth, family, lepidoptera, beetle, bulbophyllum, 


snail, database, natural, find, geometridae, reference, museum, noctuidae 
Concept docs: Chelonia (genuyus), Palea (genus), Argiope (genus), Sphingini, 

Cribrilinidae, Tahla (genus), Gigartinales, Parapodia (genus), 

Alpina (moth), Arycanda (moth) 


Concept terms: province, district, municipality, census, rural, iran, 
romanize, population, infobox, azerbaijan, village, town, central, 
settlement, kerman 

Concept docs: New York State Senate elections, 2012, 

New York State Senate elections, 2008, 

New York State Senate elections, 2010, 

ALabama State House of Representatives elections, 2010, 
Albergaria-a-Velha, Municipalities of Italy, Municipality of MaLmo， 
Delhi Municipality, Shanghai Municipality, Goteborg Municipality 


Concept terms: genus, species, district, moth, family, province, iran, rural, 
romanize, census, village, population, lepidoptera, beetle, bulbophyllum 

Concept docs: Chelonia (genuyus), Palea (genus), Argiope (genus), Sphingini, 
Tahla (genus), Cribrilinidae, Gigartinales, Alpina (moth), Arycanda (moth), 
Arauco (moth) 


Concept terms: protein, football, league, encode, gene, play, team, bear, 
season, player, club, reading, human, footballer, cup 

Concept docs: Protein FAM186B, ARL6IP1, HIP1R, SGIP1, MTMR3, 
Gem-associated protein 6, Gem-associated protein 7，C2orf30，0S9 (gene), 
RP2 (gene) 





前 两 个 概念 还 是 有 些 模糊 ， 但 其 他 概念 看 起 来 可 以 代表 一 些 有 意义 的 类 别 。 第 三 个 概念 看 
起 来 像 是 法 国 的 某 些 地 方 。 第 四 个 和 第 六 个 概念 分 别 为 动物 和 虫子 的 分 类 。 第 五 个 是 关于 
选举 、 城 市 和 政府 的 。 第 七 个 概念 对 应 的 文章 是 关于 蛋白 质 的 ， 但 有 些 词 项 与 足球 相关 ， 
或 许 牵扯 到 了 提升 健美 效果 的 药物 ?虽然 每 个 概念 都 有 一 些 让 人 费解 的 词 出 现 ， 但 所 有 概 
念 都 显示 出 一 定 程度 上 的 主题 连贯 性 。 


6.8 基于 低 维 近似 的 查询 和 评分 


词 项 与 文档 之 间 的 相关 度 如 何 ? 词 项 与 词 项 之 间 的 相关 度 如 何 ? 与 一 组 查询 项 最 相关 的 文 
档 是 哪些 ?原始 的 文档 - 词 项 矩阵 为 解决 这 些 问 题 提 供 了 一 个 简单 的 方法 。 我 们 可 以 通过 
计算 矩阵 中 两 个 列 向 量 之 间 的 余弦 相似 度 得 到 两 个 词 项 的 相关 度 得 分 。 余 弦 相 似 度 度量 了 
两 个 向 量 之 间 的 夹 角 。 在 高 维 文档 空间 中 ， 方 向 相同 的 两 个 向 量 彼此 是 相关 的 。 两 个 向 量 
的 余弦 相似 度 可 以 通过 它们 的 点 积 除 以 向 量 的 长 度 来 得 到 。 












































自然 语言 处 理 和 信息 检索 应 用 广泛 采用 余弦 相似 度 作 为 度量 词 项 和 文档 权重 向 量 相似 性 
的 指标 。 类 似 地 ， 两 个 文档 的 相关 度 得 分 可 以 通过 这 两 个 文档 对 应 的 两 个 行 向 量 之 间 的 
余弦 相似 度 来 计算 。 词 项 和 文档 之 间 的 相关 度 得 分 就 更 简单 了 ， 就 是 矩阵 中 相应 行列 的 
相交 点 。 


但 是 ， 上 述 相似 度 计算 是 基于 词 项 和 文档 相互 关系 的 粗浅 理解 ， 依 赖 简单 的 频率 计算 。 
LSA 算法 可 以 基于 对 语料库 更 深层 次 的 理解 来 计算 相似 度 得 分 。 举 个 例子 来 说 ， 即 使 词 
项 artillery 在 文章 “Normandy landings” 中 没有 出 现 ，LSA 算法 也 可 以 根据 artillery 和 
howitzer 在 其 他 文档 中 同时 出 现 来 发 掘 artillery 和 文章 的 关系 。 




















LSA 算法 的 另 一 个 优点 就 是 效率 高 。 它 将 重要 信息 表示 为 低 维 向 量 ， 这 样 我 们 就 不 用 处 
理 原 始 的 文档 - 词 项 矩阵 。 芳 虑 给 定 一 个 词 项 寻找 与 之 最 相关 的 其 他 词 项 的 问题 。 如 果 
采用 前 面 提 到 的 粗浅 方法 ， 我 们 需要 计算 词 项 列 向 量 和 文档 - 词 项 矩阵 中 所 有 其 他 列 向 
量 的 点 积 。 这 里 需要 的 乘法 运行 次 数 和 词 项 个 数 与 文档 个 数 的 乘积 成 正比 。 通 过 采用 概念 
空间 的 表示 并 将 其 映射 回 词 项 空间 ，LSA 算法 可 以 达到 相同 的 效果 ， 但 乘法 运算 的 次 数 
与 词 项 个 数 和 上 左 的 乘积 成 正比 。 低 阶 近似 对 数据 相关 模式 进行 了 编码 ， 所 以 我 们 无 须 查询 
整个 语料库 。 


在 最 后 一 节 中 ， 我 们 将 使 用 LSA 表示 的 数据 来 构建 一 个 简单 的 查询 引擎 。 本 节 的 代码 封 
装 在 本 书 代码 库 的 LSAQueryEngine 类 中 。 


6.9 词 项 - 词 项 相关 度 


LSA 将 词 项 之 间 的 关系 解释 为 重 构 出 来 的 低 阶 近似 阵 中 的 两 个 列 之 间 的 余弦 相似 度 。 也 就 
是 说 ， 该 矩阵 可 以 通过 将 3 个 近似 因子 阵 相 乘 得 到 。LSA 算法 背后 的 思想 是 这 个 低 阶 矩阵 
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是 对 数据 更 有 用 的 表示 。 这 些 用 途 表现 在 以 下 儿 个 方面 : 














。 通过 合并 相关 词 项 来 处 理 同义词 
。 通过 对 词 项 的 不 同 含义 赋予 低 的 权重 来 处 理 多 义 词 
。 过 滤 品 声 














但 是 ， 要 得 到 余弦 相似 度 ， 不 一 定 需要 计算 出 矩阵 的 元 素 。 线 性 代数 运算 告诉 我 们 重 构 矩 
阵 中 的 两 个 列 的 余弦 相似 度 正好 等 于 SV 的 相应 列 的 余弦 相似 度 。 考 虑 寻找 一 个 词 项 最 相 

















关 的 一 组 词 项 的 问题 。 计 算 词 项 与 其 他 所 有 词 项 之 间 的 余弦 相似 度 等 














价 于 先 将 VS 中 的 每 




















一 行 归 一 化 ， 然 后 乘 以 词 项 对 应 的 行 。 得 到 的 结果 向 量 中 每 个 元 素 代 表 了 词 项 与 查询 项 之 





间 的 相似 度 。 





为 了 节省 篇 幅 ， 我 们 省 略 了 计算 V5 和 行 归 一 化 方法 的 实现 代码 ， 大 家 可 以 参考 本 书 附带 








的 GitHub 资料 库 。 我 们 在 类 LSAQuerayEngine 初始 化 的 过 程 中 执行 这 些 代码 ， 以 便 日 后 可 








以 重用 : 


import breeze.linalg.{DenseMatrix => BDenseMatrix} 


class LSAQueryEngine( 


val svd: SingularValueDecomposition[RowMatrix, Matrix], 


Et 


val VS: BDenseMatrix[Double] = multiplyByDiagonalMatrix(svd.V, svd.s) 


val normalizedVS: BDenseMatrix[Double] = rowsNormalized(VS) 


在 初始 化 的 时 候 ， 计 算 id-to-document 和 id-to-term 的 逆向 映射 ， 这 样 我 们 就 可 以 将 查询 到 





的 字符 串 映 射 回 矩 阵 中 的 位 置 : 





val idTerms: Map[String, Int] 
val idDocs: Map[String, Long] 


现在 ， 寻 找 与 词 项 相关 的 词 项 : 


def topTermsForTerm(termId: Int): Seq[(Double, Int)] = { 


val rowVec = normalizedVsS(ternmId, ::).t ©O 





termIds.zipWithIndex.toMap 
docIds.map(_.swap) 


val termScores = (normalizedVS * termRowVec).toArray.zipWithIindex @ 


termScores.sortBy(-_._1).take(10) © 
} 


def printTopTermsForTerm(term: String): Unit = { 
val idWeights = topTermsForTerm(idTerms(term)) 
println(idweights.map { case (score, id) => 
(termIds(id), score) @ 
}.mkString(", ")) 





@ 在 万 中 查询 给 定 词 项 ID 对 应 的 行 。 

@ 计算 每 个 词 项 的 得 分 。 

@ 找 出 最 高 得 分 的 词 项 。 

@ 计算 词 项 到 词 项 ID 的 映射 。 

如 有 果 你 正在 使 用 spark-sheLL， 就 可 以 用 以 下 方法 加 载 此 功能 : 
import Com.CLoudera.datascience.Lsa.LSAQueryEngine 


val termIdfs = idfModel.idf.toArray 
val queryEngine = new LSAQueryEngine(svd, termIds, docIds, termIdfs) 





下 面 是 一 些 样 例 词 项 的 最 相关 的 词 项 得 分 情况 : 











queryEngine.printTopTermsForTerm("algorithm") 


(algorithm,1.000000000000002)，(heuristic,0.8773199836391916)， 
(compute,0.8561015487853708), (constraint,0.8370707630657652), 
(optimization,0.8331940333186296), (complexity,0.823738607119692)， 
(algorithmic,0.8227315888559854), (iterative,0.822364922633442)， 
(recursive,0.8176921180556759), (minimization,0.8160188481409465) 


queryEngine.printTopTermsForTerm("radiohead") 


(radiohead,0.9999999999999993), (lyrically,0.8837403315233519)， 
(catchy,0.8780717902060333), (riff,0.861326571452104)， 
(Lyricsthe,0.8460798060853993), (lyric,0.8434937575368959)， 
(upbeat ,0.8410212279939793) ，(song,9.8280655506697948) ， 
(musticaLty,0.8239497926624353) ，(anthemitc,0.8207874883055177) 


queryEngine.printTopTermsForTerm("tarantino") 


(tarantino,1.0), (soderbergh,0.780999345687437), 

(buscemi ,0.7386998898933894), (screenplay,0.7347041267543623)，, 
(spielberg,0.7342534745182226), (dicaprio,0.7279146798149239)， 
(filmmaking,0.7261103750076819), (lumet,0.7259812377657624)， 

(directorial,0.7195131565316943), (biopic,0.7164037755577743) 


6.10 ”文档 -文档 相关 度 


同样 可 以 计算 文档 之 间 的 相关 度 。 要 计算 两 个 文档 之 间 的 相似 度 ， 只 要 计算 ww Ss 和 ww 之 
间 的 余弦 相似 度 ， 这 里 w 是 U 中 词 项 i 对 应 的 行 。 要 计算 一 个 文档 和 其 他 所 有 文档 的 相似 
度 ， 只 要 计算 normalized(US) u,。 




















与 normalized(VS) 类 似 ， 我 们 在 LSAQueryEngine 类 中 计算 normalized(US)， 以 便 重用 结果 。 
由 于 U 和 缘 后 是 一 个 RDD， 而 不 是 本 地 算 阵 ， 所 以 这 里 的 实现 方法 稍 有 不 同 : 
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val US: RowMatrix = multiplyByDiagonalRowMatrix(svd.U, svd.s) 
val normalizedUS: RowMatrix = distributedRowsNormalized(US) 


然后 ， 查 找 与 文档 相关 的 文档 : 





import org.apache.spark.mllib.linalg.Matrices 


def topDocsForDoc(docId: Long): Seq[(Double, Long)] = { 
val docRowArr = normalizedUS.rows.zipWithUniqueId.map(_.swap) 
.Lookup(docId) .head.toArray @ 
val docRowVec = Matrices.dense(docRowArr.length, 1, docRowArr) 


val docScores = normalizedUS.multiply(docRowVec) @ 


val allDocWeights = docScores.rows.map(_.toArray(0)). 
zipWithUniqueId() © 


allDocWeights.filter(!_._1.isNaN).top(10) @ 
} 


def printTopDocsForDoc(doc: String): Unit = { 
val idWeights = topDocsForDoc(idDocs(doc)) 
println(idweights.map { case (score, id) => 
(docIds(id), score) 
}.mkString(", ")) 


} 
@ 在 US 中 查找 给 定 doc ID 对 应 的 行 。 
@ 计算 每 个 文档 的 得 分 。 
@ 找 出 得 分 最 高 的 文档 。 
@ 如 果 忆 中 对 应 行 元 素 全 为 0， 则 文档 得 分 可 能 是 NaN。 所 以 需要 将 这 些 行 去 掉 。 








下 面 给 出 一 些 样 例文 档 的 最 相似 文档 : 














queryEngine.printTopDocsForDoc("Romania") 


(Romania,0.9999999999999994), (Roma in Romania,0.9229332158078395 ) ， 
(Kingdom of Romania,0.9176138537751187) ， 

(Anti-Romanian discrimination,0.9131983116426412),， 

(Timeline of Romanian history,0.9124093989500675)， 

(Romania and the euro,0.9123191881625798 ) ， 

(History of Romania,0.9095848558045102 ) ， 

(Romania-United States relations,0.9016913779787574), 

(Wiesel Commission,0.9016106300096606)，, 

(List of Romania-related topics,0.8981305676612493) 


queryEngine.printTopDocsForDoc("Brad Pitt") 


(Brad Pitt,0.9999999999999984), (Aaron Eckhart,0.8935447577397551), 
(Leonardo DiCapriio,0.8930359829082504),(Winona Ryder ,0.8903497762653693)， 
(Ryan Phillippe,0.8847178312465214), (Claudette Colbert,0.8812403821804665)， 
(Clint Eastwood,0.8785765085978459), (Reese Witherspoon,0.876540742663427), 





120 | 第 6 章 


(Meryl Streep in the 2000s,0.8751593996242115)， 
(Kate Winslet,0.873124888198288) 


queryEngine.printTopDocsForDoc("Radiohead") 


(Radiohead,1.0000000000000016)，(Fightstar ,0.9461712602479349)， 
(R.E.M. ,0.9456251852095919), (Incubus (band),0.9434650141836163), 
(Audioslave,0.9411291455765148), (Tonic (band),0.9374518874425788), 
(Depeche Mode,0.9370085419199352), (Megadeth,0.9355302294384438)， 
(Alice in Chains,0.9347862053793862), (Blur (band),0.9347436350811016) 


6.11 文档 - 词 项 相关 度 


怎样 计算 词 项 和 文档 之 间 的 相关 度 ? 这 等 价 于 计算 文档 - 词 项 矩阵 的 低 阶 近似 阵 相应 词 
项 与 文档 对 应 的 元 素 ， 即 uy'Sv,， 其 中 是 U 中 文档 对 应 的 行 ,，v, 是 季 中 词 项 对 应 的 行 。 

















经 过 简单 的 线性 代数 运算 就 可 以 看 出 ， 词 项 和 每 个 文档 的 相似 度 就 是 US w。 结 果 向 量 








中 的 每 个 元 素 代 表 文 档 与 查询 项 之 间 的 相似 度 。 另 一 个 方向 上 文档 与 每 个 词 项 的 相似 度 





是 uy SV: 


def topDocsForTerm(termId: Int): Seq[(Double, Long)] = { 
val rowArr = (0 until svd.V.numCols). 
map(i => svd.V(termId, i)).toArray 
val rowVec = Matrices.dense(termRowArr.length, 1, termRowArr) 


val docScores = US.multiply(rowVec) © 


val allDocWeights = docScores.rows.map(_.toArray(0)). 
zipWithUniqueId() @ 
allDocWeights. top(10) 
} 


def printTopDocsForTerm(term: String): Unit = { 
val idweights = topDocsForTerm(US, svd.V, idTerms(term)) 
println(idweights.map { case (score, id) => 
(docIds(id), score) 
}.mkString(", ")) 


} 
@ 计算 每 个 文档 的 得 分 。 
@ 找 出 得 分 最 高 的 文档 。 





queryEngine.printTopDocsForTerm("fir") 


(Silver tree,0.006292909647173194 ) ， 

(See the forest for the trees,0.004785047583508223 ) ， 
(Eucalyptus tree,0.004592837783089319 ) ， 

(Sequoia tree,0.004497446632469554)， 

(Willow tree,0.004442871594515006 ) ， 

(Coniferous tree,0.004429936059594164) ， 

(Tulip Tree,0.004420469113273123 ) ， 
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(National tree,0.004381572286629475 ) ， 
(Cottonwood tree,0.004374705020233878 ) ， 
(Juniper Tree,0.004370895085141889) 


queryEngine.printTopDocsForTerm("graph") 


(K-factor (graph theory) ,0.07074443599385992 ) ， 

(Mesh Graph,0.05843133228896666) ，(Mesh graph,0.05843133228896666 ) ， 

(Grid Graph,0.05762071784234877) ，(Grid graph,0.05762071784234877)， 

(Graph factor,0.056799669054782564), (Graph (economics),0.05603848473056094), 
(Skin graph,0.05512936759365371), (Edgeless graph,0.05507918292342141) ， 
(Traversable graph,0.05507918292342141) 


6.12 多 词 项 查询 


最 后 ， 我 们 该 怎样 实现 多 个 词 项 的 查询 ”找到 与 单个 词 项 相关 的 文档 只 需 从 六 中 选 出 与 该 
词 项 相应 的 行 。 这 等 价 于 用 只 有 一 个 非 零 元 素 的 词 癌 量 乘 以 广 相反 ， 人 
只 要 用 包含 多 个 非 零 元 素 的 词 向 量 乘 以 户 从 而 计算 出 概念 -空间 向 量 。 为 了 保持 原始 文 
档 - 词 项 矩阵 的 权重 机 制 ， 将 查询 中 的 词 项 权重 值 设 为 词 项 的 逆 文 档 频率 。 





termIdfs = idfModel.idf.toArray 


er st eS 将 该 文档 
对 应 低 阶 近似 文档 - 词 项 矩阵 的 一 行 ， 然 后 求 该 行 与 矩阵 中 其 余弦 相似 度 。 














import breeze.linalg.{SparseVector => BSparseVector} 


def termsToQueryVector(terms: Seq[String]) 
: BSparseVector[Double] = { 
val indices = terms.map(idTerms(_)).toArray 
val values = terms.map(idfs(_)).toArray 
new BSparseVector[Double](indices, values, idTerms.size) 


} 


def topDocsForTermQuery(query: BSparseVector[Double]) 
: Seq[(Double, Long)] = { 
val breezeV = new BDenseMatrix[Double](V.numRows, V.numCols, 
V.toArray) 
val termRowArr = (breezeV.t * query).toArray 


val termRowVec = Matrices.dense(termRowArr.length, 1, termRowArr) 

val docScores = US.multiply(termRowVec) © 

val allDocWeights = docScores.rows.map(_.toArray(0)). 
zipWithUniqueId() @ 


allDocWeights.top(10) 
3 


def printTopDocsForTermQuery(terms: Seq[String]): Unit = { 





val queryVec = termsToQueryVector(terms) 
val idWeights = topDocsForTermQuery(queryVec) 
println(idWweights.map { case (score, id) => 
(docIds(id), score) 
}.mkString(", ")) 
J 


@ 计算 每 个 文档 的 得 分 。 
@ 找 出 得 分 最 高 的 文档 。 





queryEngine.printTopDocsForTermQuery(Seq("factorization", "decomposition")) 


(K-factor (graph theory),0.04335677416674133), 
(Matrix ALgebra,0.038074479507460755 ) ， 

(Matrix aLgebra,0.038074479507460755 ) ， 

(Zero Theorem,0.03758005783639301) ， 

(Birkhoff-von Neumann Theorem,0.03594539874814679 ) ， 
(Enumeration theorem,0.03498444607374629 ) ， 
(Pythagoras' theorem,0.03489110483887526 ) ， 

(Thales theorem,0.03481592682203685)， 

(Cpt theorem,0.03478175099368145 ) ， 

(Fuss' theorem,0.034739350150484904) 


6.13 ”小结 


除了 用 于 文本 分 析 ， 奇 异 值 分 解 (SVD) 和 它 的 姊妹 技术 主 成 分 分 析 (PCA) 还 有 很 多 其 
他 应 用 。 特 征 脸 (eigenface) 是 人 脸 识别 的 常用 方法 ， 它 采用 了 这 种 技术 来 理解 人 类 脸 冰 
的 不 同 模式 。 在 气象 学 研究 中 ， 可 以 使 用 这 个 技术 从 包含 噪声 的 不 同 数据 源 中 发 现 类 似 年 
轮 一 样 的 全 球 气 温 变 化 趋势 。Michael Mann 著名 的 “曲棍球 棒 图 ” (https://en.wikipedia.org/ 
wiki/Hockey_stick_controversy) 描绘 了 整个 20 世纪 气温 升 高 的 规律 ， 这 其 实 就 是 所 谓 的 概 
念 。SVD 和 PCA 算法 也 用 于 高 维 数据 集 的 可 视 化 。 但 一 个 数据 集 被 归 约 为 最 重要 的 两 到 
三 个 概念 后 ， 我 们 就 可 以 将 它 绘制 成 人 类 可 以 观察 的 图 形 了 。 






































还 有 许多 其 他 方法 可 以 用 于 理解 海量 文本 语料库 。 比 如 潜在 狄 氏 配置 (LDA，latent 
Dirichlet allocation ，https:Wen.wikipedia.org/wiki/Latent_Dirichlet_allocation) 就 是 其 中 一 种 
技术 。 作 为 一 个 话题 模型 ， 该 技术 可 以 从 语料库 中 推断 出 一 组 话题 并 计算 出 每 个 文档 参与 
该 话题 的 程度 。 
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第 7 章 


用 GraphX 分 析 伴 生 网 络 





作者 : 天 希 ' 威 尔 斯 


这 是 一 个 小 世界 ， 一 个 不 断 穿越 自身 的 小 世界 。 
David Mitchell 








数据 科学 家 形形色色 ， 其 学 术 背 景 也 大 相 径 庭 。 他 们 大 部 分 具有 计算 机 科学 、 数 学 和 物理 
学 背景 ， 但 也 有 不 少 具 有 神经 学 、 社 会 学 和 政治 学 背景 。 尽 管 这 些 研究 领域 研究 的 内 容 各 
不 相同 (比如 有 的 研究 大 脑 ， 有 的 研究 人 类 ， 还 有 的 研究 政治 机 构 )， 也 不 要 求学 生 学 习 
编程 ， 但 它们 有 两 个 共同 的 特点 ， 这 两 个 共同 点 使 得 这 些 领 域 盛产 数据 科学 家 。 








第 一 ， 这 些 领 域 都 需要 理解 实体 间 的 关系 ， 不 论 是 神经 元 之 间 的 关系 ， 还 是 人 类 个 体 之 间 
的 关系 ， 抑 或 是 国家 与 国家 之 间 的 关系 ， 而 且 都 需要 知道 这 些 关 系 如 何 影响 实体 的 具体 行 
为 。 第 二 ， 随 着 过 去 十 年 电子 数据 的 爆炸 式 增长 ， 研 究 人 员 可 以 获得 有 关 这 些 关 系 的 诲 量 
信息 ， 而 这 些 海量 数据 要 求 他 们 具备 获取 和 管理 这 些 数据 的 新 技能 。 


随 着 这 些 研究 人 员 彼 此 之 间 以 及 与 计算 机 科学 家 之 间 合 作 的 增多 ， 他 们 发 现 许多 关系 分 
析 技 术 也 能 用 于 解决 其 他 领域 的 问题 。 于 是 ， 以 图 论 为 工具 的 网 络 科学 (network science) 
就 诞生 了 。 图 论 是 一 个 数学 学 科 ， 研 究 一 组 实体 ( 称 为 顶点) 之 间 两 两 关系 〈 称 为 边 ) 的 
特点 。 图 论 也 被 广泛 应 用 于 计算 机 科学 ， 比 如 研究 数据 结构 、 计 算 机 架构 和 网 络 设计 ( 比 
如 互联 网 等 )。 





























图 论 和 网 络 科 学 也 对 商业 领域 产生 了 次 远 影响 。 几 乎 所 有 大 型 互联 网 公司 都 建立 了 关系 网 
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络 ， 通 过 对 这 些 重要 的 关系 网 络 进行 分 析 ， 这 些 公司 获得 了 巨大 的 价值 和 更 多 的 莞 争 优 


势 。 亚 马 进 和 Netflix 分 


别 建 立 并 擎 握 了 顾客 - 商品 购买 关系 和 用 户 - 电影 评分 关系 ， 并 





且 基 于 这 些 关系 构建 各 自 的 推荐 算法 。Facebook 和 LinkedIn 则 构建 了 人 类 关系 图 谱 并 对 这 
些 关 系 进行 分 析 ， 目 的 就 是 为 了 更 好 地 组 织 内 容 、 提 升 广告 效果 以 及 帮助 人 们 建立 新 的 关 








系 。 在 构建 关系 网 络 方 








而 ， 最 有 名 的 例子 可 能 要 数 谷 歌 创 始 人 发 明 的 PageRank 算法 ， 该 











算法 从 根本 上 改善 了 互联 网 的 搜索 方式 。 


这 些 以 网 络 为 中 心 的 公司 的 计算 和 分 析 需 求 促使 了 MapReduce 等 分 布 式 处 理 框架 的 产生 。 
与 此 同时 ， 这 些 公司 也 雇用 了 许多 数据 科学 家 ， 使 用 这 些 工具 对 越 来 越 多 的 数据 进行 更 快 
的 分 析 。MapReduce 框架 最 初 就 是 为 了 求解 PageRank 算法 核心 方程 式 设计 的 ， 该 框架 提 
供 了 一 种 可 扩展 和 可 靠 的 方式 。 随 着 图 谱 越 来 越 大 ， 数 据 科 学 家 需要 更 快 地 进行 分 析 ， 于 
是 不 断 有 新 的 并 行 图 处 理 框 架 被 开发 出 来 ， 比 如 谷歌 的 Pregel、 雅 虎 的 Giraph 和 卡 内 基 梅 
隆 大 学 的 GraphLab。 这 些 框架 以 图 处 理 为 中 心 ， 支 持 容错 和 和 友 代 式 内 存 计算 ， 对 某 些 类 型 
的 图 计算 的 处 理 效率 大 大 高 于 对 应 的 数据 并 行 式 MapReduce 作业 。 
























































本 章 将 介绍 Spark 之 上 的 一 个 扩展 工具 GraphX， 它 支持 Pregel、Giraph 和 GraphLab 中 
的 许多 图 并 行 处 理 任 务 。 相 比 于 Pregel、Giraph 和 GraphLab 这 些 定制 的 图 计算 框架 ， 
GraphX 无 法 在 每 个 图 计算 上 都 与 它们 一 样 快 ， 但 由 于 GraphX 基于 Spark， 在 进行 数据 分 
析 过 程 中 ， 如 果 你 想 引 入 GraphX 对 以 网 络 为 中 心 的 数据 集 进 行 分 析 是 非常 方便 的 。 有 了 
GraphX， 你 能 够 像 往常 一 样 使 用 熟悉 的 Spark 抽象 来 进行 图 并 行 编程 。 















































GraphX 与 GraphFrame 


GraphX 在 Spark 1.3 版 本 引入 DataFrame 之 前 就 存在 ， 它 的 API 都 是 基于 RDD 而 设计 
的 。 最 近 社 区 正在 努力 将 GraphX 移植 到 基于 DataFrame 的 新 API 上， 因此 它 被 贴切 
地 称 为 GraphFrame。 与 传统 的 GraphX API 相 比 ，GraphFrame 有 许多 优点 ， 包 括 通过 
DataFrame API 对 图 格式 进行 序列 化 和 反 序 列 化 的 更 加 丰富 的 功能 支撑 ， 以 及 表达 力 更 
强 的 图 查询 。 


在 编写 本 书 第 2 版 的 时 候 ，Spark 2.1 的 GraphFrame 并 不 能 处 理 本 章 中 的 所 有 分 析 ， 
所 以 我 们 决定 继续 使 用 功能 完整 的 GraphX API。 好 消息 是 ，GraphEFrame API 的 很 多 理 
念 来 自 GraphX， 因 此 本 章 中 介绍 的 所 有 方法 和 概念 都 能 和 GraphFrame 一 一 对 应 起 来 。 
我 们 期 待 着 在 本 书 的 下 一 个 版 本 (目前 纯粹 是 构想 ) 中 迁移 到 GraphFrame; 你 也 可 以 
跟踪 Graph Frame 项 目的 进展 状态 (http://graphframes.github.io/) 。 











7.1 对 MEDLINE 文 献 引 用 索引 的 网 络 分 析 


MEDLINE (Medical Literature Analysis and Retrieval System Online， 医 学 文献 在 线 分 析 
和 检索 系统 ) 是 一 个 学 术 论 文 数据 库 ， 收 录 发 表 在 生命 科学 和 医学 领域 期 刊 上 的 文献 。 





MEDLINE 由 美 家 卫生 研究 院 (National Institute of Health，NIH) 下 属 的 国家 医学 图 
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书馆 (National Library of Medicine，NLM) 管理 并 发 行 。 它 的 文献 引用 索引 记录 了 数 千 种 
期 刊 上 发 表 的 论文 ， 最 早 的 论文 可 以 追 调 到 1879 年 。 从 1971 年 开始 MEDLINE 对 医科 学 
校 提 供 在 线 访问 ， 从 1996 年 开始 对 外 提供 公开 访问 的 网 页 。 主 数据 库 收 录 了 2000 多 万 篇 
文章 ， 其 中 最 早 的 文章 发 表 在 20 世纪 50 年 代 初期 ， 该 数据 库 每 个 工作 日 都 更 新 。 














由 于 MEDLINE 引用 量 非常 大 而 且 更 新 频率 快 ， 研 究 人 员 在 所 有 文献 引用 索引 上 开发 了 一 
套 全 面 的 语义 标签 ， 称 为 MeSH (Medical Subject Headings)。 这 些 标签 提供 了 一 个 有 用 的 
框架 ， 使 用 MeSH， 人 们 就 可 以 在 阅读 文献 时 知道 文献 之 间 的 关系 。 同 时 人 们 基于 MeSH 
开发 了 许多 数据 产品 : 2001 年 PubGene 向 人 们 展示 了 第 一 个 生物 医学 文本 挖掘 的 生产 应 
用 。 这 是 一 个 搜索 引擎 ， 人 们 可 以 利用 它 查看 MeSH 术语 的 关系 图 谱 ， 而 正 是 这 个 图 谱 将 
文档 连接 在 一 起 。 


本 章 我 们 将 使 用 Scala、Spark 和 GraphX 来 获取 、 转 换 并 分 析 MeSH 术语 网 络 ， 这 些 
术语 来 自 MEDLINE 近期 公开 的 引用 数据 子 集 。 我 们 的 网 络 分 析 思 想来 自 于 Kastrin 等 
于 2014 年 发 表 的 论文 “Large-Scale Structure of a Network of Co-Occurring MeSH Terms: 
Statistical Analysis of Macroscopic Properties” (https://www.ncbi.nlm.nih.gov/pmce/articles/ 
PMC4090190/) 。 但 我 们 使 用 了 一 个 不 同 的 引用 数据 子 集 ， 同 时 原 论 文中 采用 的 是 R 工具 
包 和 C++ 代码 ， 我 们 这 里 使 用 GraphX。 


我 们 的 目的 是 了 解 文献 引用 图 谱 的 概况 和 特点 。 为 了 实现 这 个 目标 ， 我 们 要 从 多 个 角度 来 
研究 数据 集 ， 这 样 才 能 全 面 了 解数 据 集 。 首 先 ， 我 们 研究 数据 集中 的 主要 主题 和 它们 的 伴 
生 关 系 ， 这 个 分 析 比 较 简 单 ， 不 需要 使 用 GraphX。 然 后 ， 我 们 要 找 出 数据 集中 的 连通 组 
件 (connected component) 。 我 们 能 不 能 治 着 一 条 引用 路 径 从 一 个 主题 达到 另 一 个 主题 ? 数 
据 实际 上 是 不 是 由 一 系列 独立 的 子 图 组 成 的 ? 这 些 都 是 我 们 要 回答 的 问题 。 接 下 来 ， 我 们 
会 继续 讨论 图 的 度 分 布 ， 它 描述 了 主题 的 相关 度 变 化 并 有 助 于 我 们 找到 那些 与 其 他 主题 关 
联 最 多 的 主题 。 最 后 ， 我 们 要 计算 两 个 图 统计 量 : 聚 类 系数 和 平均 路 径 长 度 ， 它 们 的 复杂 
度 稍微 高 一 点 儿 。 这 些 统计 量 有 助 于 我 们 了 解 文献 引用 图 谱 与 万 维 网 和 Facebook 社交 网 络 
等 实际 图 谱 的 相似 程度 。 


7.2 获取 数据 


我 们 可 以 从 NIH 的 FTP 服务 器 上 下 载 文献 引用 数据 的 一 个 样本 ， 脚 本 如 下 ; 





































































































$ mkdir medLine_data 
$ cd medLine_data 
$ wget ftp://ftp.nlm.nih.gov/nlmdata/sample/medline/*.gz 


解压 并 检查 数据 ， 然 后 将 数据 上 传 到 HDFS 上 ， 代 码 如 下 : 


$ gunzip *.gz 
$ ls -Ltr 
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total 1814128 


-rw-r--r-- 1 jwills 
-rw-r--r-- 1 jwills 
-rw-r--r-- 1 jwills 
-rw-r--r-- 1 jwills 
-rw-r--r-- 1 jwills 
-rw-r--r-- 1 jwills 
-rw-r--r-- 1 jwills 
-rw-r--r-- 1 jwills 
样本 数据 格式 为 XML， 


staff 
staff 
staff 
staff 
staff 
staff 
staff 
staff 


145188012 
133663105 
131298588 
156910066 
112711106 
105189622 

72705330 

71147066 


Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 
Dec 


W ww ww mw mw mw ww ww 


2015 
2015 
2015 
2015 
2015 
2015 
2015 
2015 


medsamp2016h. 
medsamp2016g. 
medsamp2016f. 
medsamp2016e. 
medsamp2016d. 
medsamp2016c. 
medsamp2016b . 
medsamp2016a . 


xml 
xml 
xml 
xml 
xml 
xml 
xml 
xml 





解压 之 后 大 约 有 600 MB。 样 本 文件 中 每 个 条 目 是 一 条 
MedlineCitation 类 型 的 记录 ， 该 记录 包含 文章 在 生物 医学 杂志 上 的 发 表 信 息 ， 包 括 杂 
志 名 称 、 发 行 期 号 、 发 行 日 期 、 作 者 姓名 、 摘 要 、MeSH 关键 字 集 合 。 此 外 ，MeSH 关 











键 字 还 有 一 个 属性 ， 用 于 表示 该 关键 字 所 指 概念 是 不 是 文章 主要 的 主题 。 我 们 来 看 看 


medsamp2016a.xml 文 


<MedlineCitation Owner="PIP" Status="MEDLINE"> 





件 中 第 一 个 引用 记录 : 


<PMID Version="1">12255379</PMID> 

<DateCreated> 
<Year>1980</Year> 
<Month>01</Month> 
<Day>03</Day> 


</DateCreated> 


<MeshHeadingList> 


<MeshHeading> 
<DescriptorName 
</MeshHeading> 
<MeshHeading> 
<DescriptorName 
</MeshHeading> 
<MeshHeading> 
<DescriptorName 
</MeshHeading> 


</MeshHeadingList> 


</MedlineCitation> 








MajorTopicYN="N">Humans</DescriptorName> 


MajorTopicYN="Y">Intelligence</DescriptorName> 


MajorTopicYN="Y">Rorschach Test</DescriptorName> 


前 一 章 在 对 维基 百科 文章 进行 潜在 语义 分 析 时 ， 我 们 主要 关心 XML 记录 中 的 非 结 构 化 文 


本 。 但 对 本 章 中 作 














中 提取 值 


和 查询 XML 文档 。 








E 生 关系 的 分 析 ， 我 们 直接 通过 解析 XML 结构 并 从 DescriptorName 标签 


。 幸 和 运 的 是 ，Scala 提供 了 一 个 非常 优秀 的 工具 scala-xml， 可 以 直接 用 它 来 解析 


先 将 引用 数据 加 载 到 HDFS 上 : 


$ hadoop fs -mkdir medline 
$ hadoop fs -put *.xml medline 
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现在 启动 Spark shell。 本 章 要 用 到 第 6 章 解 析 XML 格式 数据 的 代码 。 为 了 将 这 些 代码 编译 


成 一 个 可 供 引 用 的 JAR， 需 要 先 到 Git 资料 库 上 的 ch07-graph/ 目录 下 并 执行 Maven 构建 : 


$ cd ch07-graph/ 

$ mvn package 

$ cd target 

$ spark-shell --jars ch07-graph-2.0.0-jar-with-dependencies.jar 





为 了 把 XML 格式 的 MEDLINE 数据 读 到 Spark shell 中 ， 我 们 需要 实现 一 个 函数 ， 代 码 如 下 : 


import edu.umd.cloud9.collection.XMLInputFormat 
import org.apache.spark.sql.{Dataset, SparkSession} 
import org.apache.hadoop.io.{Text, LongWritable} 
import org.apache.hadoop.conf.Configuration 


def loadMedline(spark: SparkSession, path: String) = { 
import spark.implicits._ 
@transient val conf = new Configuration() 
conf.set(XMLInputFormat.START_TAG_KEY, "<MedlineCitation ") 
conf.set(XMLInputFormat.END_TAG_KEY, "</MedlineCitation>") 
val sc = spark.sparkContext 
val in = sc.newAPIHadoopFile(path, classOof[XMLInputFormat], 

classof[LongWritable], classof[Text], conf) 

in.map(line => line. 2.toString).toDS() 


val medlineRaw = loadMedline(spark, "medline") 





由 于 不 同 记录 中 MedlineCitation 开始 标签 中 属性 值 可 能 不 同 ， 所 以 我 们 将 配置 参数 








START_TAG_KEY 的 值 设 为 edLineCitation 开始 标签 的 前 级 。XmtlInputFormat 会 在 返 
录 值 中 包含 这 些 不 同 的 属性 。 


7.3 用 Scala XML 工具 解析 XML 文档 


Scala 和 XML 之 间 有 一 段 渊 源 比 较 有 意思 。 从 1.2 版 本 开始 ，Scala 就 把 XML 作为 
级 数据 类 型 ， 所 以 下 面 这 段 代 码 的 句法 是 没 问 题 的 : 

















import scaLa.xmL. 


val cit = <MedlineCitation>data</MedlineCitation> 








回 的 记 





它 的 一 


这 种 对 XML 字面 量 的 支持 在 主流 编程 语言 中 不 多 见 ， 特 别 是 像 JSON 这 类 序列 化 格式 被 
广泛 采用 之 后 。 对 此 ，Martin Odersky 在 2012 年 Scala 语言 邮件 列表 中 做 出 如 下 评论 : 











[XML 字面 量 ] 在 当时 是 个 不 错 的 特性 ， 但 现在 看 起 来 它 有 点 儿 不 合 时 宜 。 相 信 有 
了 新 的 字符 事 插 入 方案 后 ， 就 可 以 把 所 有 XML 处 理 代码 都 放 到 库 里 了 ， 这 应 该 是 


个 不 小 的 进步 。 





从 Scala 2.11 开始 ，scala.xml 包 不 再 包含 在 Scala 核心 库 之 中 。 在 将 Scala 升级 到 Scala 
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2.11 之 后 ， 如 果 需 要 在 项 目 中 使 用 Scala XML 工具 包 ， 我 们 必须 显 式 地 将 scala-xml 依赖 
包 包 含 进来。 





记 住 上 述 要 点 之 后 ， 我 们 必须 承认 Scala 对 XML 文档 的 解析 和 查询 真 的 非常 优秀 
MEDLINE 引用 数据 中 提取 信息 时 我 们 要 反复 利用 这 种 优点 。 现 在 就 开始 把 第 一 条 未 解析 
的 引用 记录 提取 到 我 们 的 Spark shell 中 吧 : 











val rawXml = medlineRaw.take(1)(0) 
val elem = XML.LoadString(rawXmL) 








0 eLem 是 scala.xml.Elem ne Scala 用 scala.xml.Elen 类 表示 XML 文档 中 的 一 


全 同 


elem.label 
elem.attributes 


它 也 提供 了 查找 给 定 XML 节点 子 节 点 的 几 个 运算 符 ， 其 中 第 一 个 就 是 \， 用 于 根据 名 称 
查询 节点 的 直接 子 节 点 

elem \ "MeshHeadingList" 

NodeSeq(<MeshHeadingList> 

<MeshHeading> 


<DescriptorName MajorTopicYN="N">Behavior</DescriptorName> 
</MeshHeading> 


0 只 对 布点 的 直接 子 节 点 有 效 ， 如 果 我 们 运行 elem \、"MeshHeading" ， 结 果 会 是 一 
空 的 Nodeseq。 为 了 得 到 给 定 节点 的 间接 子 节 点 ， 我 们 要 用 运算 符 \\: 
eLem \\ "MeshHeading" 
Node Sed teneshiesding 


<DescriptorName MajorTopicYN="N">Behavior</DescriptorName> 
</MeshHeading>， 


可 以 用 \\ 运算 符 直 接 得 到 DescriptorName 条 目 ， 并 通过 在 每 个 NodeSeq 内 部 元 素 上 调用 
text 函数 把 每 个 节点 内 的 MeSH 标签 提取 出 来 : 


(elem \\ "DescriptorName").map(_.text) 


List(Behavior, Congenital Abnormalities, ... 


二 :， 每 个 DescriptorName 条 目 都 有 一 个 MajorTopicyYN 属性 ， 它 表示 该 MeSH 标 
是 否 是 所 引用 的 文章 的 主要 主题 。 只 要 我 们 在 XML 标签 属性 前 加 上 “@” 符 号 ， 就 可 
以 用 \ 和 \\ 运算 符 得 到 XML 标签 属性 的 值 。 用 这 个 特性 我 们 可 以 建立 一 个 过 滤器 ， 只 返 
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回 文章 的 主要 MeSH 标签 的 名 称 ， 代 码 如 下 : 


def majorTopics(record: String): Seq[String] = { 
val elem = XML.LoadString(record) 
val dn = elem \\ "DescriptorName" 
val mt = dn.filter(n => (n \ "@MajorTopicYyN").text == "Y") 
mt.map(n => n.text) 
} 


majorTopics(elem) 








现在 我 们 的 XML 解析 代码 可 以 在 本 地 运行 了 ， 我 们 可 以 用 它 解 析 RDD 中 每 条 引用 记录 的 
MeSH 编码 并 将 结果 缓存 起 来 : 








val medline = medlineRaw.map(majorTopics) 
medline.cache() 
medLine.take(1)(0) 


7.4 分 析 MeSH 主 要 主题 及 其 伴生 关系 


在 将 MEDLINE 引用 记录 中 所 需 的 MeSH 标签 提取 出 来 之 后 ， 我 们 需要 知道 数据 集中 标签 
的 总 体 分 布 情况 。 为 此 我 们 需要 使 用 Spark SQL 计算 一 些 基本 统计 量 ， 比 如 记录 条 数 和 主 
要 MeSH 主题 出 现 频率 的 直方 图 ， 代 码 如 下 : 








medline.count() 
val topics = medLine.fLatMap(mesh => mesh).toDF("topic") 
topics.createOrReplaceTempView("topics") 
val topicDist = spark.sql(""" 
SELECT topic, COUNT(*) cnt 
FROM topics 
GROUP BY topic 
ORDER BY cnt DESC""") 
topicDist.count() 


res: Long = 14548 
topicDist. show() 


+-------------------- +----+ 
| topic| cnt| 


Research|1649| 
Disease|1349| 
Neoplasms |1123| 
Tuberculosis|1066| 
Public Policy| 816| 
Jurisprudence| 796| 
Demography| 763| 
Population Dynamics| 753| 
Economics| 690| 
Medicine| 682| 





出 现 最 频繁 的 主要 主题 是 那些 最 常见 的 主题 ， 比 如 超级 常见 的 Research 和 Disease， 以 及 
稍微 弱 一 点 儿 的 Neoplasms 和 Tuberculosis， 这 一 点 在 我 们 的 意料 之 中 。 好 在 我 们 的 数据 集 
中 有 超过 13 000 个 不 同 的 主要 主题 ， 考 虑 到 最 常 出 现 的 主题 只 出 现 了 少数 (1649/240 000， 
约 为 0.7%) 文档 中 ， 我 们 估计 包含 某 个 主题 的 文档 的 个 数 的 总 体 分 布 呈 现 长 尾 形 态 。 为 了 
验证 我 们 的 估计 ， 我 们 对 topicDist DataFrame 中 出 现 次 数 相同 的 主题 的 个 数 进行 统计 ; 











topicDist.createOrReplaceTempView("topic dist") 
spark.sql(""" 

SELECT cnt, COUNT(*) dist 

FROM topic dist 

GROUP BY cnt 

ORDER BY dist DESC 

LIMIT 10""").show() 


+---+----+ 
|cnt|distl| 


当然 我 们 主要 还 是 关心 MeSH 的 伴生 主题 。MEDLINE 数据 集中 每 一 项 都 是 一 个 字符 串 列 
表 ， 代 表 每 个 引用 记录 中 提 及 的 主题 名 称 。 要 得 到 伴生 主题 ， 我 们 要 为 这 些 字符 串 列 表 生 
成 一 个 二 元 组 集合 。 幸 运 的 是 ，Scala 的 集合 工具 包 有 一 个 combinations 方法 ， 利 用 这 个 
方法 产生 这 些 子 列表 极其 容易 。combinations 方法 返回 的 是 一 个 Iterator， 因 此 并 不 需要 
同时 把 所 有 组 合 都 放 在 内 存 里 。 

















val list = List(1, 2, 3) 
val combs = list.combinations(2) 
combs.foreach(println) 





当 用 这 个 函数 来 生成 子 列表 时 ， 我 们 要 注意 所 有 的 列表 要 按照 同样 的 方式 进行 排序 ， 以 便 
之 后 使 用 Spark 对 它们 进行 汇总 。 这 是 因为 combinations 函数 返回 的 列表 取决 于 输入 元 素 
的 顺序 ， 而 元 素 相 同 但 顺序 不 同 的 两 个 列表 是 不 相等 的 。 











val combs = list.reverse.combinations(2) 
combs.foreach(println) 
List(3, 2) == List(2, 3) 




















因此 ， 如 果 我 们 要 为 每 条 引用 记录 生成 二 元 子 列表 集合 ， 在 调用 combinations 之 前 要 确保 
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主题 列表 是 排 好 序 的 : 


val topicpairs = medline.flatMap(t => { 
t.sorted.combinations(2) 
}).toDF("pairs") 
topicpairs.createOrReplaceTempView("topic pairs") 
val cooccurs = spark.sql(""" 
SELECT pairs, COUNT(*) cnt 
FROM topic_pairs 
GROUP BY pairs""") 
cooccurs.cache() 
cooccurs.count() 


由 于 我 们 的 数据 中 有 14 548 个 主题 ， 总 共 可 能 有 14 548*14 547/2 = 105 814 878 
伴生 二 元 组 。 然 而 ， 伴 生 组 的 计数 结果 显示 数据 集中 实际 上 只 有 213 745 组 ， 只 





个 无 序 的 
占 可 能 : 





量 的 很 小 一 部 分 。 如 果 考 察 一 下 数据 中 最 常 出 现 的 伴生 二 元 组 ， 我 们 可 以 得 到 如 下 结果 : 





cooccurs.createOrReplaceTempView("cooccurs" 
spark.sql(""" 

SELECT pairs, cnt 

FROM cooccurs 

ORDER BY cnt DESC 

LIMIT 10""").collect().foreach(println) 


[WrappedArray(Demography, Population Dynamics),288] 
[WrappedArray(Government Regulation, Social Control, Formal),254] 
[WrappedArray(Emigration and Immigration, Population Dynamics),230] 
[WrappedArray(Acquired Immunodeficiency Syndrome, HIV Infections),220] 
[WrappedArray(Antibiotics, Antitubercular, Dermatologic Agents),205] 
[WrappedArray(Analgesia, Anesthesia),183] 

[WrappedArray(Economics, Population Dynamics),181] 
[WrappedArray(Analgesia, Anesthesia and Analgesia),179] 
[WrappedArray(Anesthesia, Anesthesia and Analgesia),177] 
[WrappedArray(Population Dynamics, Population Growth),174] 


最 常 出 现 的 伴生 二 元 组 也 设 有 什么 特别 之 处 ， 如 有 果 我 们 根据 最 常 出 现 的 主要 主题 来 猜测 ， 














计 








世 
S 





吉 果 也 差不多 。 出 现 最 多 的 伴生 二 元 组 ， 例 如 (Demography, Population Dynamics) (人 口 
充 计 学 ， 人 口 动力 学 ) 这 个 组 合 的 出 现 。 要 么 由 于 它们 是 两 个 独立 主题 ， 但 都 是 最 常 出 现 





的 ， 要 么 由 于 它们 频繁 共 现 ， 基 本 上 可 以 当成 同义词 ， 就 像 (Analgesia, Anesthesia) (镇 痛 ， 
麻醉 ) 这 种 组 合 一 样 。 这 一 点 不 足 为 奇 ， 除 了 说 明 数 据 中 存在 伴生 二 元 组 之 外 也 没有 提供 


什么 额外 信息 。 


7.5 用 GraphX 来 建立 一 个 伴生 网 络 





正如 在 前 一 节 中 所 看 到 的 那样 ， 在 研究 伴生 网 络 时 标准 的 数据 统计 工具 不 能 提供 额外 有 价 
值 的 信息 。 我 们 能 计算 的 总 体 概要 统计 量 ， 比 如 原始 记录 条 数 等 ， 无 法 让 我 们 了 解 网 络 中 
关系 的 总 体 结构 。 并 且 运 用 这 些 工具 得 到 的 处 于 分 布 两 端的 伴生 二 元 组 常常 是 我 们 不 太 感 














兴趣 的 。 
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我 们 真正 想 要 做 的 是 分 析 伴 生 网 络 : 把 主题 当 作 图 的 顶点 ， 把 连接 两 个 主题 的 引用 记录 看 
成 两 个 相应 顶点 之 间 的 边 。 这 样 我 们 就 可 以 计算 以 网 络 为 中 心 的 统计 量 。 这 些 网 络 统计 量 
能 帮助 我 们 理解 网 络 的 总 体 结构 并 识别 出 那些 有 意思 的 局 部 离 群 顶点 ， 识 别 出 这 些 离 群 点 























之 后 我 们 才 需 要 对 其 进行 进一步 研究 。 








我 们 也 可 以 利用 伴生 网 络 找 出 需要 进一步 研究 的 那些 有 意思 的 相互 关系 。 图 7-1 是 抗 癌 药 
物 和 病人 服用 药物 所 产生 的 不 良 反 应 的 部 分 伴生 关系 图 。 我 们 可 以 利用 从 这 些 图 中 得 到 的 
信息 设计 临床 实验 并 研究 药物 和 不 良 反 应 的 相互 关系 。 
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图 7-1: 抗 癌 药 物 和 相关 病人 不 良 反 应 组 的 部 分 伴生 关系 图 


MLlib 对 利用 Spark 建立 机 器 学 习 模 型 提供 了 一 组 模式 和 算法 。 与 之 类 似 ， 设计 GraphX 这 
个 Spark 工具 包 是 为 了 帮助 我 们 利用 图 论 的 语言 和 工具 分 析 各 种 网 络 。 由 于 GraphX 构建 





对 规模 极其 庞大 的 























在 Spark 之 上 ， 它 继承 了 Spark 在 可 扩展 性 方面 的 所 有 特性 。 这 就 意味 着 可 以 利用 GraphX 
图 进行 分 析 ， 这 些 分 析 任 务 可 以 在 多 个 机 器 上 分 布 式 执行 。GraphX 也 


可 以 与 Spark 平台 上 的 其 他 组 件 很 好 地 集成 在 一 起 ， 这 样 数据 科 学 家 就 能 在 各 种 任务 中 轻 
公 切 换 :， 从 编写 运行 在 RDD 之 上 的 ETL 任务 切换 到 执行 那些 运行 在 图 上 的 图 并 行 算 法 ， 
然后 再 切 回 到 以 数据 并 行 的 方式 对 图 计算 输出 结果 并 进行 分 析 和 汇总 。 这 一 点 我 们 将 在 本 





华中 看 到 。GraphX 允许 我 们 在 分 析 过 程 中 轻松 引入 图 计算 方式 ， 正 是 基 






































才 使 得 GraphX 变 得 如 此 强大 。 





为 这 种 无 颖 集成 


像 Dataset API 一 样 ，GraphX 也 构建 在 Spark 的 基础 数据 单元 RDD 上 。 有 具体 而 言 ，GraphX 
针对 图 计算 对 RDD 的 实现 进行 了 两 项 特殊 的 优化 。VertexRDD[VD] 是 RDD[(VertexId，VD)] 
的 特殊 实现 ， 其 中 VertexID 类 型 是 Long 的 实例 ， 对 每 个 顶点 都 是 必需 的 。VD 是 顶点 关 
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联 的 任何 类 型 数据 ， 称 为 顶点 属性 (vertex attribute) 。EdgeRDD[ED] 是 RDD[Edge[ED]] 的 
特殊 实现 ， 其 中 Edge 是 包含 两 个 vertexId 值 和 一 个 ED 类 型 的 边 属性 (edge attribute ) 。 
VertexRDD 和 EdgeRDD 在 每 个 数据 分 区 内 部 均 有 用 于 加 快 连接 和 属性 更 新 的 索引 结构 。 给 定 
VertexRDD 及 其 相应 的 EdgeRDD 后 ， 我 们 就 能 建立 一 个 Graph 类 的 实例 ，Graph 类 包含 了 许 
多 图 计算 的 高 效 方法 。 


要 建立 一 个 图 ， 首 先 要 取得 用 作 图 顶点 标识 符 的 Long 型 值 。 由 于 所 有 主题 都 是 用 字符 串 标 
示 的 ， 因 此 我 们 在 创建 伴生 网 络 时 要 处 理 这 个 小 问题 。 我 们 需要 有 一 种 方式 将 每 个 主题 字 
符 串 转换 为 64 位 的 Long 型 值 ， 而 且 这 种 方式 最 好 能 够 分 布 式 执行 。 这 样 就 能 对 全 部 数据 
进行 快速 处 理 。 


方法 之 一 就 是 用 内 置 的 hashCode 方法 来 对 任意 Scala 对 象 产生 一 个 32 位 整数 。 就 本 章 要 
讨论 的 问题 而 言 ， 我 们 的 图 只 有 13 000 个 顶点 ， 这 种 方法 可 能 行 得 通 。 但 对 于 一 个 有 数 
百 万 其 至 是 数 千 万 顶点 的 图 来 说 ， 发 生 散 列 冲 突 的 概率 可 能 就 太 高 了 。 因 此 我 们 从 谷歌 的 
Guava 库 复制 散 列 实现 。 利 用 该 工具 ， 可 以 通过 MD5 散 列 算法 为 每 个 主题 生成 一 个 64 位 
的 唯一 标识 符 ， 代 码 如 下 : 











































































































import java.nio.charset.StandardCharsets 
import java.security.MessageDigest 


def hashId(str: String): Long = { 

val bytes = MessageDigest.getInstance("MD5"). 
digest(str.getBytes(StandardCharsets .UTF_8)) 
(bytes(0) & OxFFL) | 


((bytes(1) & OxFFL) << 8) | 

((bytes(2) & OxFFL) << 16) | 

((bytes(3) & OxFFL) << 24) | 

((bytes(4) & OxFFL) << 32) | 

((bytes(5) & OxFFL) << 40) | 

((bytes(6) & OxFFL) << 48) | 
& 


((bytes(7) 
} 


OxFFL) << 56) 


在 MEDLINE 数据 上 运行 该 散 列 函数 可 以 得 到 一 个 DataFrame， 以 它 为 基础 就 可 以 得 到 伴 
生 关系 图 的 顶点 集合 。 我 们 还 需要 对 结果 进行 简单 的 校 验 以 确保 每 个 主题 的 散 列 标识 符 是 
唯一 的 ， 代 码 如 下 : 








import org.apache.spark.sqL.Row 

val vertices = topics.map{ case Row(topic: String) => 
(hashId(topic), topic) }.toDF("hash", "topic") 

val uniqueHashes = vertices.agg(countDistinct("hash")).take(1) 


res: Array[Row] = Array([14548]) 





我 们 要 用 前 面 一 市 中 得 到 的 伴生 频率 计数 来 生成 图 的 边 ， 方 法 是 使 用 散 列 函数 将 每 个 主题 
的 名 称 映射 到 相应 的 顶点 也。 在 生成 边 的 时 候 ， 一 个 好 习惯 就 是 要 保证 左边 的 VertexId 

















A 
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(GraphX 称 为 src) 要 比 右边 的 vertexId (GraphX 称 为 dst) 小 。 虽 然 GraphX 工具 包 
大 多 数 算法 都 不 要 求 src 和 dst 之 间 有 大 小 关系 ， 但 确实 有 几 个 算法 存在 这 样 的 要 求 。 
此 最 好 在 一 开始 时 就 保证 大 小 顺序 ， 这 样 的 话 就 再 也 不 用 为 此 操心 了 。 


团 圭 























import org.apache.spark.graphx._ 


val edges = cooccurs.map{ case Row(topics: Seq[_], cnt: Long) => 
val ids = topics.map(_.toString).map(hashId).sorted 
Edge(ids(0), ids(1), cnt) 


把 顶点 和 边 都 准备 好 之 后 就 可 以 创建 6raph 实例 了 。 我 们 需要 将 Graph 缓存 起 来 ， 这 样 便 
于 后 续 处 理 时 使 用 ， 代 码 如 下 : 








val vertexRDD = vertices.rdd.map{ 
case Row(hash: Long, topic: String) => (hash, topic) 


val topicGraph = Graph(vertexRDD, edges.rdd) 
topicGraph.cache() 





用 于 创建 Graph 实例 的 vertexRDD 和 edges 参数 是 普通 的 RDD。 我 们 其 至 没有 为 保证 每 个 
主题 实例 的 唯一 性 而 对 vertices 进行 去 重 。 幸 运 的 是 ，Graph API 帮 我 们 完成 了 这 项 工作 ， 
它 会 将 我 们 输入 的 RDD 转换 成 一 个 VertexRDD 和 一 个 EdgeRDD， 这 样 顶 点 计数 就 是 唯一 
的 了 : 





vertexRDD .count() 
280464 
topicGraph.vertices.count() 


14548 














注意 ， 如 果 某 两 个 顶点 二 元 组 在 EdgeRDD 中 重复 出 现 ，Graph API 不 会 对 其 进行 去 重 处 理 ， 
这 样 GraphX 就 可 以 创建 多 图 (multigraph) ， 也 就 是 相同 的 顶点 之 间 可 以 用 多 条 不 同 值 的 
边 。 如 果 图 顶点 代表 了 有 许多 丰富 涵义 的 对 象 ， 多 图 往往 是 很 有 用 的 。 比 如 人 或 公司 ， 他 
们 之 间 就 可 能 有 许多 不 同 的 关系 (比如 朋友 、 家 庭 成 员 、 顾 客 、 合 作 伙 伴 等 )。 多 图 也 可 
以 让 我 们 根据 实际 情况 使 用 有 向 边 或 无 向 边 。 


7.6 理解 网 络 结构 


研究 表 的 内 容 时 我 们 可 以 快速 算出 列 上 的 很 多 概要 统计 量 ， 这 样 就 能 大 概 知道 数据 的 结构 
并 可 以 对 问题 域 作 进 一 步 研 究 。 研 究 图 时 ， 这 个 原则 同样 适用 ， 只 不 过 此 时 我 们 感 兴趣 的 
概要 统计 量 稍 有 不 同 。Graph 类 内 置 了 计算 这 些 概要 统计 量 的 方法 ， 结 合 其 他 常规 的 Spark 
RDD API， 我 们 可 以 很 轻松 地 了 解 到 图 的 结构 ， 这 样 就 能 为 研究 图 提供 方向 。 
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7.6.1 连通 组 件 

对 于 图 来 说 ， 我 们 想 了 解 的 一 个 基本 情况 就 是 它 是 否 是 连通 图 。 对 于 连通 图 中 的 任意 两 个 顶 
点 ， 它 们 之 间 都 存在 一 条 路 径 到 达 对 方 ， 路 径 就 是 连接 两 个 顶点 的 一 系列 边 。 如 果 图 是 非 连 
通 的 ， 那 么 我 们 可 以 将 图 划分 成 一 组 更 小 的 子 图 ， 这 样 就 可 以 分 别 对 每 个 子 图 进行 研究 。 

















连通 性 是 图 的 基本 属性 ， 所 以 很 自然 地 GraphX 内 置 了 找 出 图 的 连通 组 件 的 方法 。 如 果 在 
图 上 调用 过 connectedComponents 方法 ， 你 就 会 注意 到 Spark 会 生成 许多 作业 ， 等 作业 结束 
后 ， 就 会 得 到 计算 的 结果 : 











val connectedComponentGraph = topicGraph.connectedComponents() 


请 注意 connectedComponents 方法 返回 对 象 的 类 型 ， 也 是 Graph 类 型 实例 ， 但 顶点 属性 的 
类 型 是 VertexId， 它 是 每 个 顶点 所 属 连通 组 件 的 唯一 标识 符 。 想 得 到 连通 组 件 的 个 数 和 大 
小 ， 我 们 可 以 将 VertexRDD 转换 回 DataFrame， 然 后 使 用 我 们 的 标准 工具 包 : 














val componentDF = connectedComponentGraph.vertices.toDF("vid", "cid") 
val componentCounts = componentDF .groupBy("cid").count() 
componentCounts .count() 


878 
我 们 先 来 看 几 个 最 大 的 连通 组 件 : 
ComponentCounts .orderBy(desc("count" )) .show() 


+-------------------- +----- 十 
| cid|count| 
+-------------------- +----- 十 
-9218306090261648869|13610| 
-8193948242717911820| 5| 
-2062883918534425492| 4| 
-8679136035911620397| 3| 
1765411469112156596| 3| 
-7016546051037489808| 3| 
-7685954109876710390| 3| 
-784187332742198415 | 3| 
2742772755763603550 | 3| 


最 大 的 连通 组 件 包含 了 超过 90% 的 顶点 ， 第 二 大 的 连通 组 件 包含 4 个 顶点 ， 只 占 图 的 非常 
小 的 一 部 分 。 为 了 搞 清楚 为 什么 这 些小 组 件 没有 和 最 大 的 组 件 连 通 ， 需 要 看 一 下 它们 的 主 
题 。 为 了 查看 小 组 件 相关 的 主题 的 名 称 ， 需 要 将 连通 组 件 图 对 应 的 VertexRDD 和 原始 概念 
图 执行 join 操作 。VertexRDD 提供 了 innerJoin 转换 ， 它 利用 了 GraphX 的 内 部 数据 结构 ， 
性 能 比 常 规 Spark 的 join 转换 要 好 得 多 。innerJoin 方法 需要 我 们 提供 一 个 函数 ， 该 函数 
的 输入 为 VertexID 和 两 个 VertexRDD 的 内 部 数据 ， 函 数 的 返回 值 是 一 个 新 的 VertexRDD， 
它 是 innerJoin 方法 结果 。 对 应 到 我 们 这 里 的 情况 ， 我 们 想 要 知道 每 个 连通 组 件 的 概念 的 
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名 称 ， 因 此 需要 返回 一 个 包含 主题 名 称 和 组 件 ID 的 DataFrame: 
val topicComponentDF = topicGraph.vertices.innerJoin( 
connectedComponentGraph.vertices) { 


(topicId, name, componentId) => (name, componentId.toLong) 
}.toDF("topic", "cid") 


我 们 来 看 一 下 第 二 大 连通 组 件 的 主题 名 称 : 


topicComponentDF .where("cid = -2062883918534425492").show() 





| Serotyping|-2062883918534425492| 
|Campylobacter jejuni|-2062883918534425492| 
|Campylobacter Inf...|-2062883918534425492| 
| Campylobacter coli|-2062883918534425492| 
+-------------------- +-------------------- + 
在 搜索 引擎 上 查询 一 下 ， 就 能 知道 Campylobacter 是 一 种 细菌 ， 是 引起 食物 中 毒 最 常见 的 
病因 之 一 ， 而 serotyping 是 一 种 基于 细胞 表面 “抗原 ”对 细菌 分 类 的 技术 ,“ 抗 原 ” 是 一 种 
在 体内 引起 免疫 反应 的 毒素 。( 这 种 调研 工作 平均 每 天 要 数据 科学 家 花 掉 至 少 两 个 小 时 在 


维基 百科 上 。) 


下 面 是 最 初 的 主题 分 布 ， 看 看 数据 集中 是 否 有 任何 类 似 命名 的 主题 ， 在 该 徐 群 中 并 未 
出 现 : 


























val campy = spark.sql( 
SEEEGT :* 
FROM topic_dist 
WHERE topic LIKE '%ampylobacter%'""") 
campy. show() 


+-------------------- +---+ 
| topic|cnt| 


|CampyLobacter jejuni| 3| 
|CampyLobacter Inf...| 2| 
| Campylobacter coli| 1| 
| Campylobacter| 1| 
| Campylobacter fetus| 1| 














Campylobacter fetus 这 个 主题 听 起 来 和 我 们 的 Campylobacter 菌 群 相似 ， 但 是 在 MEDLINE 
引用 数据 中 ， 没 有 一 篇 文章 将 二 者 关联 起 来 。 互 联网 上 的 进一步 搜索 结果 显示 ， 
Campylobacter 的 这 个 亚 种 主要 在 牛 羊 身上 发 现 ， 与 人 类 无 关 ， 因 此 尽管 名 称 相似 ， 在 研究 
文献 中 却 无 法 关联 起 来 。 

这 里 我 们 学 到 的 一 个 新 知识 ， 随 着 我 们 不 断 加 入 论文 引用 数据 ， 主 题 伴生 网 络 就 非常 可 能 
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变 成 全 连通 图 ， 并 且 没 有 什么 重要 理由 让 我 们 相信 这 个 伴生 网 络 会 分 解 成 独立 的 子 图 。 








底层 实现 上 ， 为 了 找 出 每 个 顶点 所 属 的 连通 组 件 ，connectedComponents 方法 利用 vertexId 
作为 顶点 唯一 标识 符 在 图 上 执行 一 些 列 式 迭 代 计算 。 在 计算 的 每 个 阶段 ， 每 个 顶点 把 它 
所 收 到 的 最 小 VertexID 广播 到 相 邻 节点 。 第 一 次 迭代 时 ， 这 个 最 小 Vertex1ID 就 是 顶点 自 
身 的 ID， 在 随后 的 友 代 中 该 最 小 vertexID 通常 会 被 更 新 掉 。 每 个 顶点 都 记录 它 所 收 到 的 
VertexID 的 最 小 值 ， 如 果 在 某 一 次 欠 代 中 ， 所 有 顶点 的 最 小 vertexID 都 没有 变化 ， 那 么 连 
通 组 件 的 计算 就 完成 了 ， 每 个 顶点 都 将 分 配给 该 顶点 的 最 小 vertexID 所 代表 的 组 件 。 在 图 
上 的 这 种 迭代 式 计算 非常 普遍 ， 本 章 后 面 将 介绍 怎样 使 用 这 种 迭代 模式 来 计算 其 他 图 结构 
指标 。 


7.6.2” 度 的 分 布 

连通 图 的 结构 可 能 有 很 多 种 。 比 如 ， 它 可 能 是 一 个 节点 和 所 有 其 他 节点 相连 ， 而 其 他 贡 点 
之 间 则 不 直接 相连 。 如 有 果 我 们 去 掉 这 个 中 心 节 点 ， 图 就 散落 成 若干 分 离 的 顶点 。 图 的 结构 
也 可 能 是 每 个 顶点 都 只 和 两 个 其 他 顶点 相连 ， 整 个 组 件 形成 一 个 巨大 的 环 。 




































































图 7-2 说 明 ， 即 使 同样 的 连通 图 ， 它 们 的 度 分 布 也 可 能 过 异 。 

















图 7-2: 连通 图 的 度 分 布 





为 了 更 多 了 解 图 的 结构 信息 ， 我 们 需要 知道 每 个 顶点 的 度 ， 也 就 是 每 个 顶点 所 属 边 的 条 
数 。 对 于 一 个 无 环 图 (如 果 边 的 两 个 顶点 相同 就 形成 环 ) ， 因 为 每 条 边 都 包含 两 个 不 同 的 
顶点 ， 所 以 全 体 顶 点 的 度 之 和 等 于 边 的 条 数 的 两 倍 。 

GraphX 中 我 们 可 以 通过 在 Graph 对 象 上 调用 degrees 方法 得 到 每 个 顶点 的 度 。degrees 方 


法 返回 一 个 整数 的 VertexRDD， 其 中 每 个 整数 代表 一 个 顶点 的 度 。 现 在 我 们 来 为 概念 网 络 
计算 度 的 分 布 和 一 些 基 本 的 概要 统计 量 ， 代 码 如 下 : 














val degrees: VertexRDD[Int] = topicGraph.degrees.cache() 
degrees.map(_._2).stats() 
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(count: 13721, mean: 31.155892 ， 
stdev: 65.497591, max: 2596.000000， 
min: 1.000000) 


度 分 布 中 有 几 个 点 要 注意 。 第 一 ，degrees RDD 中 条 目 个 数 比 概念 图 的 顶点 数 少 。 概 念 图 
有 14 548 个 顶点 ， 而 degrees RDD 只 有 13 721 个 条 目 。 有 些 顶 点 没有 连接 边 。 这 可 能 是 
由 于 MEDLINE 数据 中 某 些 引 用 只 有 一 个 主要 主题 词 ， 因 此 有 些 主题 并 不 和 其 他 任何 主题 
同时 出 现 。 可 以 通过 重新 检查 原始 数据 集 medline 来 确认 我 们 的 推出 ， 代 码 如 下 : 











val sing = medline.filter(x => x.size == 1) 
sing.count() 


44509 
val singTopic = sing.flatMap(topic => topic).distinct() 


singTopic.count() 


8243 





有 8243 个 不 同 主题 词 单独 出 现在 MEDLINE 数据 库 中 的 44 509 篇 文章 中 。 现 在 我 们 将 已 
经 在 topicpairs 数据 集 出 现 过 的 这 些 主 题词 去 掉 ， 代 码 如 下 ; 








val topic2 = topicpairs.flatMap(_.getAs[Seq[String]](0)) 
singTopic.except(topic2).count() 


827 
这 会 过 滤 掉 MEDLINE 数据 库 文档 中 单独 出 现 的 827 个 主题 词 。14 548 减 去 827 等 于 
13 721， 正 好 是 degrees RDD 中 的 条 目 数 。 

















其 次 ， 请 注意 虽然 度 的 均值 较 小 ， 意 味 着 普通 顶点 只 连接 到 少数 几 个 其 他 节点 ， 但 是 度 的 
最 大 值 却 表明 至 少 有 一 个 节点 是 高 度 连接 的 ， 它 几乎 和 图 中 三 分 之 一 的 顶点 都 是 连接 的 。 











我 们 来 进一步 看 一 下 那些 度 很 高 的 顶点 所 对 应 的 概念 ， 具 体 方 法 是 使 用 GraphX 的 
innerJoin 在 degrees VertexRDD 和 概念 图 中 的 顶点 上 执行 join 运算 。 这 里 我 们 还 要 提供 
一 个 关联 函数 将 概念 名 称 和 顶点 的 度 组 织 成 一 个 二 元 组 ， 请 记 住 innerJoin 方法 只 返回 在 
两 个 VertexRDD 中 均 出 现 的 顶点 ， 因 此 那些 没有 与 其 他 概念 同时 出 现 的 概念 将 被 过 滤 掉 。 























val namesAndDegrees = degrees.innerJoin(topicGraph.vertices) { 
(topicId, degree, name) => (name, degree.toInt) 
}.values.toDF("topic", "degree") 





如 果 我 们 打印 出 namesAndDegrees DataFrame 中 度数 最 高 的 10 个 顶点 ， 会 得 到 如 下 结果 : 


namesAndDegrees .orderBy(desc("degree")).show() 


+------------------- +------ + 
topic |degree| 





用 GraphX 分 析 伴生 网 络 | 139 


Research| 2596| 
Disease| 1746| 
Neoplasms| 1202| 


Blood| 914| 
Tuberculosis| 815| 


Toxicology| 694| 
Drug Therapy| 678| 
Jurisprudence| 661| 


| 
| 
| 
| 
| Pharmacology | 882| 
| 
| 
| 
| 
|Biomedical Research| 633| 


这 次 分 析 中 ， 大 部 分 度数 较 高 的 顶点 与 前 文 讨论 过 的 那些 常见 概念 并 没有 什么 不 同 ， 这 一 
点 在 我 们 的 意料 之 中 。 下 一 节 我 们 将 会 使 用 GraphX API 提供 的 新 功能 和 一 些 经 典 的 统计 
量 ， 把 那些 没有 什么 意义 的 伴生 二 元 组 从 图 中 过 滤 掉 。 














7.7” “过滤 噪 声 边 

在 当前 的 伴生 图 中 ， 边 的 权重 是 基于 一 对 概念 同时 出 现在 一 篇 论文 中 的 频率 来 计算 的 。 这 
种 简单 的 权重 机 制 的 问题 在 于 ， 它 并 没有 对 一 对 概念 同时 出 现 的 原因 加 以 区 分 ， 有 了 时 一 对 
概念 同时 出 现 是 因为 它们 有 具有 某 种 值得 我 们 关注 的 语义 关系 ， 但 有 时 一 对 概念 同时 出 现 只 
是 因为 它们 都 频繁 地 出 现在 所 有 文档 中 ， 同 时 出 现 只 是 碰巧 而 已 。 我 们 需要 使 用 一 种 新 的 
权重 机 制 ， 在 给 定 概念 在 数据 中 的 总 体 频繁 度 的 情况 下 ， 它 需要 考虑 给 定 的 两 个 概念 对 
于 一 个 文档 的 “意义 ”或 “新 颖 度 "。 我 们 将 使 用 皮尔 逊 卡 方 测试 (Pearson’s chi-squared 
test) 来 严格 计算 这 种 “意义 "， 也 就 是 说 ， 我 们 要 测试 一 个 概念 的 出 现 与 其 他 概念 的 出 现 
是 否 是 独立 的 。 

对 任何 概念 对 A 和 B， 我 们 可 以 建立 一 个 2x2 的 列 联 表 ， 它 包含 了 这 两 个 概念 同时 出 现 
在 MEDLINE 文档 中 的 次 数 。 



























































YesB NoB A Total 
Yes A YY YN YA 
NoA NY NN NA 
B Total YB NB T 





该 表 中 YY、YN、NY 和 NN 代表 概念 A 和 B 在 文档 中 出 现 / 没 出 现 的 原始 次 数 。YA 和 
NA 是 概念 A 的 按 行 合 计 的 出 现 次 数 ，YB 和 NB 是 概念 B 按 列 合 计 的 出 现 次 数 ， 值 工 则 
是 文档 的 总 数 。 


卡 方 测试 时 ， 我 们 可 以 把 YY、YN、NY 和 NN 看 成 菜 个 未 知 分 布 的 观测 ， 可 以 根据 这 些 
值 计算 卡 方 统计 量 : 








(|YY * NN — YN*NY |— 7/2)? 
YA*NA*YB*NB 





X22=7 


请 注意 ， 这 个 卡 方 统 计量 的 公式 包括 一 个 术语 “- T/2”。 这 是 耶 奖 的 连续 性 校正 (Yates’s 
continuity correction, https://en.wikipedia.org/wiki/Yates’s_correction_for_continuity)， 一 些 


公式 中 并 没有 包含 。 


如 果 样 本 实际 上 是 独立 的 ， 我 们 期 望 该 统计 量 服从 适当 自由 度 的 卡 方 分 布 。 假 定 > 和 是 
待 比较 的 两 个 随机 变量 的 基数 ， 则 自由 度 为 0 - D(c - 1) = 1。 卡 方 统计 量 大 则 表明 随机 变 
量 相互 独立 的 可 能 性 小 ， 因 此 两 个 概念 同时 出 现 是 有 意义 的 。 更 具体 地 讲 ， 自 由 度 为 1 的 
卡 方 分 布 的 CDF (累积 分 布 函 数 ) 给 出 一 个 p 值 ， 它 是 我 们 拒绝 变量 是 独立 的 这 个 备 择 假 
设 的 置信 水 平 。 


本 市 将 使 用 GraphX 来 计算 伴生 图 中 每 个 概念 对 的 卡 方 统计 量 。 





















































7.7.1 ”处理 EdgeTriplet 
求 卡 方 统计 量 时 最 简单 的 部 分 就 是 计算 T， 也 就 是 需要 考虑 的 文档 的 总 个 数 。 只 要 简单 数 
一 下 medline RDD 中 的 条 目 个 数 就 可 以 轻松 地 得 到 这 个 T， 代 码 如 下 : 





val T = medline.count() 





计算 每 个 概念 在 多 少 篇 文档 中 出 现 也 相对 简单 ， 本 章 前 面 建立 DataFrame 实例 topicDist 
时 已 经 讨论 过 ， 但 我 们 现在 需要 将 其 表示 为 主题 的 散 列 值 及 其 计数 组 成 的 RDD: 




















val topicDistRdd = topicDist.map{ 
case Row(topic: String, cnt: Long) => (hashId(topic), cnt) 
}.rdd 


有 了 这 个 表示 主题 词 出 现 次 数 的 vertexRDD， 就 可 以 把 它 作 为 顶点 集合 ， 再 加 上 已 有 的 
edges RDD 一 起 用 来 创建 一 个 新 图 : 





val topicDistGraph = Graph(topicDistRdd, topicGraph.edges) 





现在 我 们 拥有 计算 topiccountGraph 中 每 条 边 的 卡 方 统 计量 所 需 的 所 有 信息 。 计 算 卡 方 统 
计量 ， 需 要 组 合 顶 点 数据 (比如 每 个 概念 在 一 个 文档 中 出 现 的 次 数 ) 和 边 数 据 (比如 两 
个 概念 同时 出 现在 一 个 文档 中 的 次 数 )。 为 了 支持 这 种 计算 ，GraphX 提供 了 一 个 数据 结构 
EdgeTriplet[VD，ED]， 该 数据 结构 将 顶点 和 边 的 属性 连同 两 个 顶点 的 ID 一 起 包装 进 一 个 
对 象 。 给 定 topicpistGraph 上 的 一 个 EdgeTriplet， 就 能 算出 卡 方 统 计量 ， 代 码 如 下 : 





def chiSq(YY: Long, YB: Long, YA: Long, T: Long): Double = { 
val NB =T - YB 
vaL NA=T -YA 
val YN = 
val NY = YB - YY 
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vaLNN=T-NY -YN -YY 
val inner = math.abs(YY * NN - YN * NY) - T / 2.0 
T * math.pow(inner, 2) / (YA * NA * YB * NB) 

} 


然后 可 以 用 该 方法 通过 mapTriplets 算 子 转换 边 的 值 。mapTriplets 算 子 返回 一 个 新 图 ， 这 
个 图 的 边 的 属性 就 是 每 个 伴生 对 的 卡 方 统计 量 。 于 是 我 们 就 可 以 大 概 知 道 该 统计 量 在 所 有 
边 上 的 分 布 情况 了 : 





val chiSquaredGraph = topicDistGraph.mapTriplets(triplet => { 
chiSsq(triplet.attr, triplet.srcAttr, triplet.dstAttr, T) 


}) 
chiSquaredGraph.edges.map(x => x.attr).stats() 


(count: 213745, mean: 877.96, 
stdev: 5094.94, max: 198668.41， 
min: 0.0) 


计算 完 卡 方 统计 量 ， 我们 想 用 它 去 过 滤 那 些 没 有 意义 的 伴生 概念 对 。 从 边 的 分 布 可 以 看 
出 ， 数 据 中 卡 方 统计 量 的 范围 很 大 ， 所 以 应 该 过 滤 掉 更 多 的 噪声 边 。 对 一 个 2x2 的 列 
联 表 ， 如 果 变 量 没有 相关 性 ， 我 们 期 望 卡 方 指 标的 值 服从 自由 度 为 1 的 卡 方 分 布 。 自 由 
度 为 1 的 卡 方 分 布 的 第 99.999 百 分 位 数 大 约 为 19.5， 因 此 我 们 将 该 值 作 为 过 滤 边 的 阔 
值 ， 这 样 过 滤 后 图 中 就 只 剩 下 那些 置信 和 度 非常 高 的 有 意义 的 伴生 关系 。 我 们 将 在 图 上 利 
用 subgraph 方法 进行 过 滤 ， 这 个 方法 接受 EdgeTriplet 的 一 个 布尔 函数 ， 用 以 判断 子 轿 
应 该 包含 哪些 边 : 




































































val interesting = chiSquaredGraph.subgraph( 
triplet => triplet.attr > 19.5) 
interesting.edges.count 


140575 








我 们 采用 非常 严格 的 过 滤 规 则 ， 将 原始 伴生 关系 图 中 约 三 分 之 一 的 边 都 排除 在 外 。 该 规则 
没有 将 更 多 的 边 过 滤 掉 ， 这 不 是 件 坏 事 ， 因 为 我 们 预期 图 中 大 多 数 伴生 概念 实际 上 是 语义 
相关 的 ， 并且 它们 因此 同时 出 现 的 次 数 较 多 ， 而 不 是 碰巧 。 下 一 市 我 们 将 分 析 子 图 的 连接 
度 和 总 体 度 分 布 ， 目 的 是 了 解 去 掉 噪 声 边 是 否 会 对 图 的 结构 造成 重大 影响 。 


























7.7.2 ”分析 去 掉 噪 声 边 的 子 图 
我 们 先 在 子 图 上 运行 连通 组 件 算法 ， 并 检查 组 件 个 数 和 组 件 大 小 ， 这 里 我 们 使 用 了 本 章 前 
看 为 原始 图 编写 的 函数 : 



































val interestingComponentGraph = interesting.connectedComponents() 
val icDF = interestingComponentGraph.vertices.toDF("vid", "cid") 
val icCountDF = icDF.groupBy("cid").count() 

icCountDF .count() 





A 
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878 
icCountDF .orderBy(desc("count")).show() 


+-------------------- +----- + 
| cid|count| 
+-------------------- +----- + 
|-9218306090261648869|13610| 
|-8193948242717911820 | 5| 
|-2062883918534425492 | 4| 
|-7016546051037489808| 3| 
|-7685954109876710390 | 3| 
| -784187332742198415| 3| 
| 1765411469112156596| 3| 
| 2742772755763603550 | 3| 
| -8679136035911620397| 3| 





| 


过 小 掉 三 分 之 一 的 边 对 图 的 连通 性 影响 很 小 ， 也 没有 改变 最 大 的 连通 组 件 的 规模 ， 删 除 图 
中 的 “无 趣 ” 边 ， 使 得 主题 图 的 总 体 连通 性 保持 完好 。 检 查 一 下 过 滤 后 图 的 度 分 布 ， 情 况 
也 较为 类 似 : 














| 


























val interestingDegrees = interesting.degrees.cache() 
interestingDegrees.map(_._2).stats() 


(count: 13721, mean: 20.49, 
stdev: 29.86, max: 863.0, min: 1.0) 





过 滤 前 顶点 度 的 平均 值 约 为 31， 过 滤 后 顶点 度 的 平均 值 稍微 小 一 些 ， 约 为 20。 然 而 更 值 
得 注意 的 是 ， 过 滤 前 后 顶点 的 最 大 度 下 降 非 常 大 ， 过 滤 前 为 2569， 过 小 后 为 863。 我 们 看 
一 下 过 滤 之 后 概念 和 度 的 关系 ， 情 况 如 下 : 











interestingDegrees.innerJoin(topicGraph.vertices) { 
(topicId, degree, name) => (name, degree) 
}.values.toDF("topic", "degree").orderBy(desc("degree")).show() 


4- +------ + 


| topic |degree| 
+-------------------- +------ 十 
Research| 863| 
Disease| 637| 


| 

| 

| Pharmacology| 509| 
| Neoplasms| 453| 
| Toxicology| 381| 
| Metabolism| 321| 
| Drug Therapy| 304| 
| Blood| 302| 
| Public Policy| 279| 
| Social Change| 277| 














看 起 来 我 们 的 卡 方 过 滤 准 则 效果 不 错 : 它 在 清除 对 应 普遍 概念 的 边 的 同时 ， 还 保留 了 代表 
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概念 之 间 有 意义 并 且 有 值得 注意 的 关系 的 那些 边 。 我 们 可 以 继续 用 不 同 的 卡 方 过 着 准则 进 
行 试 验 ， 并 且 观 察 它 们 对 图 的 连通 性 和 度 分 布 的 影响 。 如 果 能 找到 卡 方 分 布 的 某 个 值 ， 并 
使 用 它 作 为 过 滤 准 则 时 ， 图 中 大 型 连通 组 件 开始 瓦解 ， 这 种 尝试 将 是 很 有 意义 的 。 或 者 那 
个 最 大 的 组 件 只 是 不 断 “ 融 化 ”， 就 像 一 座 巨 大 的 冰山 随 着 时 间 慢 慢 消 融 。 


7.8 小 世界 网 络 
图 的 连通 性 和 度 分 布 让 我 们 了 解 了 图 的 总 体 结 构 ， 而 GraphX 简化 了 这 些 属 性 的 计算 和 分 
析 。 在 这 一 节 中 我 们 将 深入 讲解 GraphX API 并 介绍 如 何 利用 这 些 API 来 计算 GraphX 并 
不 内 置 支持 的 图 的 一 些 高 级 属性 。 
































随 着 计算 机 网 络 的 崛起 〈 比 如 网 页 ， 以 及 Facebook 和 Twittert 等 社交 网 络 ) ， 数 据 科 学 家 
现在 有 了 丰富 的 数据 集 。 这 些 数 据 集 描述 了 真实 的 网 络 结构 和 形态 ， 而 不 是 数学 家 和 图 
论 学 家 所 研究 的 传统 的 理想 模型 。 最 早 论 述 真实 网 络 属性 的 论文 之 一 就 是 Duncan Watts 
和 Steven Strogatz 于 1998 年 发 表 的 论文 “Collective Dynamics of “Small-World”Networks” 
(http://www.stevenstrogatz.com/articles/collective-dynamics-of-small-world-networks-pdf)。 这 
篇 会 议论 文 第 一 次 为 具有 两 个 “小 世界 ”属性 的 图 提出 了 数学 生成 模型 。 现 实生 活 中 的 图 
具有 如 下 两 个 “小 世界 ”属性 。 


。 网 络 中 大 部 分 节点 的 度 都 不 高 ， 它 们 与 其 他 节点 形成 相对 稠密 的 和 化。 也 就 是 说 ， 一 个 节 
点 的 邻接 点 大 部 分 也 是 相连 的 。 

。 虽然 图 中 大 部 分 市 点 的 度 不 高 而 且 属 于 相对 稠密 的 从 ， 但 只 需 经 过 少数 几 条 边 可 能 从 一 
个 网 络 节 点 快速 到 达 另 一 个 市 点 。 












































对 上 述 两 个 属性 ，Watts 和 Strogatz 分 别 定 义 了 一 个 指标 ， 这 样 就 可 以 根据 图 的 指标 强度 对 
图 进行 排序 。 本 闻 我 们 将 用 GraphX 来 对 我 们 的 概念 网 络 计算 这 些 指标 ， 并 且 将 得 到 的 指 
标 和 理想 随机 图 的 这 些 指标 进行 比较 ， 从 而 测试 我 们 的 概念 网 络 是 否 具有 小 世界 的 属性 。 

















7.8.1 系 和 聚 类 系数 

如 果 对 每 个 顶点 都 存在 一 条 边 使 其 与 其 他 任何 节点 都 相连 ， 则 这 个 图 就 是 完备 的 。 给 定 一 
个 图 ， 可 能 有 多 个 顶点 子 集 是 完备 的 ， 我 们 把 这 些 完备 的 子 图 称 为 系 (clique)。 图 中 存在 
许多 大 型 的 系 表示 该 图 具有 某 种 局 部 稠密 结构 ， 我 们 发 现 真实 的 小 世界 网 络 也 具有 这 种 局 
部 稠密 结构 。 


不 幸 的 是 ， 在 给 定 图 中 寻找 系 是 非常 困难 的 。 判 断 一 个 图 是 否 有 给 定 大 小 的 系 是 一 个 NP 
完全 问题 。 也 就 是 说 ， 即 使 在 一 个 小 型 的 图 中 寻找 系 ， 甚 计算 复杂 度 也 是 非常 高 的 。 

计算 机 科学 家 提出 了 许多 简单 的 指标 ， 利 用 这 些 指标 可 以 较 好 地 了 解 一 个 图 的 局 部 稠密 
性 ， 而 不 用 花费 巨大 的 计算 代价 来 寻找 给 定 大 小 的 图 中 所 有 的 系 。 其 中 一 个 指标 就 是 顶点 
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的 三 角 计 数 ， 三 角形 是 一 个 完备 图 ， 顶 点 V 的 三 角 计数 就 是 包含 该 顶点 的 三 角形 的 个 数 。 
三 角 计 数 度量 了 人 广 有 多 少 个 邻接 点 是 相互 连接 的 。Watts 和 Strogatz 定义 了 一 个 新 的 指标 ， 
称 为 局 部 聚 类 系数 ， 它 是 一 个 顶点 的 实际 三 角 计 数 与 该 顶点 与 其 邻接 点 可 能 的 三 角 计数 的 
比率 。 对 无 向 图 来 说 ， 有 个 邻接 点 和 1 个 三 角 计数 的 顶点 ， 其 局 部 聚 类 系数 C 为 : 


























C= 2 
k(k—1) 
现在 我 们 用 GraphX 来 计算 过 滤 后 的 概念 图 的 每 个 节点 的 局 部 聚 类 系数 。GraphX 有 一 个 
内 置 方法 triangleCount， 它 返回 一 个 Graph 对 象 ， 其 中 VertexRDD 包含 了 每 个 顶点 的 三 
角 计 数 。 











val triCountGraph = interesting.triangleCount() 
triCountGraph.vertices.map(x => x._2).stats() 


(count: 14548, mean: 74.66, stdev: 295.33, max: 11023.0, min: 0.0) 





要 计算 局 部 聚 类 系数 ， 我 们 需要 通过 每 个 顶点 可 能 的 三 角 计数 ， 对 该 顶点 的 三 角 计数 进行 
归 一 化 。 每 个 顶点 可 能 的 三 角 计 数 可 以 从 interestingDegrees RDD 计算 得 出 ， 代 码 如 下 : 








val maxTrisGraph = interestingDegrees.mapValues(d =>d*(d- 1) / 2.0) 


现在 我 们 要 把 tricountGraph 中 包含 三 角 计 数 的 VertexRDD 和 上 面 得 到 的 归 一 化 VertexRDD 
进行 联结 ， 并 计算 二 者 的 比率 ， 在 这 个 过 程 中 ， 对 那些 只 有 一 条 边 的 顶点 要 注意 避免 零 除 
问题 : 








val clusterCoef = triCountGraph.vertices. 
innerJoin(maxTrisGraph) { (vertexId, triCount, maxTris) => { 
if (maxTris == 0) 0 else triCount / maxTris 
} 
上 


对 图 中 所 有 顶点 局 部 聚 类 系数 取 平 均值 ， 就 得 到 网 络 平均 聚 类 系数 : 














clusterCoef.map(_._2).sum() / interesting.vertices.count() 


0.30624625605188605 


7.8.2 ”用 Pregel 计 算 平均 路 径 长 度 
小 世界 网 络 的 第 二 个 属性 就 是 任何 两 个 节点 之 间 的 最 短路 径 是 短 的 ， 本 市 我 们 将 计算 过 滤 
之 后 的 概念 图 中 的 大 型 连通 组 件 节点 的 平均 路 径 长 度 。 


计算 图 中 顶点 之 间 的 路 径 长 度 是 一 个 迭代 过 程 ， 和 我 们 之 前 寻找 连通 组 件 的 迭代 过 程 类 
似 。 该 过 程 的 每 个 阶段 ， 每 个 顶点 将 保留 它 所 接触 过 的 顶点 列表 并 记录 到 这 些 顶 点 的 距 
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离 。 接 着 每 个 顶点 都 向 其 邻接 点 查询 它 对 应 的 市 点 列表 ， 如 果 发 现 该 列表 中 有 新 的 顶点 ， 
就 用 新 节点 更 新 自己 的 节点 列表 。 查 询 邻 接点 并 更 新 自己 节点 列表 的 过 程 一 直 继 续 下 去 ， 
直到 所 有 方 点 都 没有 发 现 有 新 市 点 需要 添加 为 止 。 


这 个 在 大 规模 分 布 式 图 上 运行 的 以 顶点 为 中 心 的 近代 式 并 行 计算 方 法 ， 是 以 谷歌 在 2009 
年 发 表 的 题 为 “Pregel: a system for large-scale graph processing” 的 论文 (https://dl.acm.org/ 
citation.cfm?id=1807184) 为 基础 的 。Pregel 早 于 MapReduce 之 前 就 已 经 提出 ， 它 基于 一 个 
称 为 批量 同步 并 行 (Bulk-Synchronous Parallel，BSP) 的 分 布 式 计算 模型 。BSP 程序 将 并 
行 处 理 阶 段 分 成 两 个 步骤 : 计算 和 通信 。 在 计算 环节 ， 图 中 每 个 顶点 检查 自己 的 内 部 状态 
并 决定 是 否 向 图 中 其 他 节点 发 送 消息 。 在 通信 环节 ，Pregel 框架 负责 将 计算 环节 得 到 的 消 
息 路 由 到 相应 的 顶点 ， 目 标 顶 点 处 理 接 收 到 的 消息 之 后 更 新 自己 的 内 部 状态 ， 并 可 能 在 下 

个 计算 环节 中 产生 新 消息 。 计 算 和 通信 的 过 程 会 一 直 继 续 下 去 ， 直 到 图 中 所 有 顶点 都 一 
致 投票 同意 停止 运行 ， 这 时 整个 过 程 就 结束 了 。 

























































































BSP 是 最 早 的 并 行 编程 模型 之 一 ， 它 具有 良好 的 通用 性 ， 而 且 具 有 容错 性 ， 因 此 设计 BSP 
系统 时 捕捉 并 保持 任何 计算 阶段 的 系统 状态 是 可 能 的 。 有 了 这 些 状态 后 ， 如 果 某 台 机 器 发 
生 故 障 ， 就 可 以 从 其 他 机 器 上 复制 出 发 生 故 障 的 机 器 的 状态 ， 整 个 计算 就 可 以 回 滚 到 故障 
发 生前 的 状态 ， 这 样 计算 过 程 就 可 以 继续 下 去 。 



































自从 谷歌 发 表 了 关于 Pregel 的 论文 之 后 ， 人 们 将 BSP 编程 模型 移植 到 HDFS 之 上 并 开发 了 
许多 开源 项 目 ， 其 中 包括 Apache Giraph 和 Apache Hama。 实 践 证 明 这 些 系统 对 那些 适用 
于 BSP 编程 模型 的 特定 问题 非常 有 用 ， 比 如 大 规模 PageRank 运算 。 但 是 由 于 这 些 项 目 难 
以 集成 到 标准 的 数据 并 行 处 理工 作 流 中 ， 所 以 它们 并 没有 广泛 地 被 数据 科学 家 当 作 分 析 工 
具 ， 也 就 没有 被 广泛 部 署 。 而 GraphX 解决 了 这 个 问题 。 由 于 GraphX 可 以 方便 地 使 用 图 
来 描述 数据 并 设计 算法 来 对 图 进行 处 理 ， 因 此 数据 科学 家 可 以 轻松 地 将 图 计算 集成 到 数据 
并 行 处 理工 作 流 中 ， 而 且 GraphX 还 提供 了 表达 BSP 运算 的 内 置 pregel 运算 符 ， 这 个 算 子 
是 以 图 为 基础 的 。 


丁 我 们 将 说 明 怎 样 使 用 这 个 运算 符 来 实现 对 一 个 图 的 平均 路 径 长 度 的 计算 ， 这 是 一 个 迭 
代 式 的 图 并 行 运算 ， 包 括 : 


(]) 分 析出 每 个 顶点 需要 记录 的 状态 ，; 

(2) 实现 一 个 函数 ， 需 要 考虑 当前 的 状态 ， 并 且 根 据 两 个 相连 顶点 决定 下 一 阶段 要 发 送 哪 
些 消息 ， 

(3) 实现 一 个 函数 ， 汇 总 来 自 不 同 顶 点 的 所 有 消息 ， 然 后 将 函数 的 结果 传递 给 顶点 以 便 更 新 
其 状态 。 








































































































使 用 Pregel 实现 分 布 式 算法 时 需要 确定 3 个 问题 。 第 一 ， 要 确定 用 何 种 数据 结构 表示 每 个 
顶点 状态 和 顶点 之 间 传 递 的 消息 。 对 我 们 要 解决 的 平均 路 径 长 度 问题 ， 我 们 希望 每 个 顶点 
都 有 一 个 查询 表 ， 这 个 查询 表 包 含 当 前 顶点 所 知道 的 顶点 的 ID 和 它 到 这 些 顶 点 的 距离 。 
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我 们 将 为 每 个 顶点 建立 一 个 Map[VertexId，Int] 并 把 这 些 信息 存储 在 其 中 。 类 似 地 ， 发 送 
给 每 个 顶点 的 消息 也 应 该 有 一 个 查询 表 ， 该 表 包 含 顶点 ID 和 距离 。 这 个 距离 是 根据 邻接 
点 传递 过 来 的 信息 计算 出 来 的 ， 同 样 可 以 用 Map[vertexId，Int] 来 表示 这 些 信息 。 














确定 了 顶点 状态 和 消息 内 容 的 数据 结构 之 后 ， 我 们 可 以 实现 两 个 函数 。 第 一 函数 是 
mergeMaps， 用 于 将 新 消息 中 的 信息 合并 到 顶点 状态 之 中 。 对 我 们 讨论 的 问题 来 说 ， 顶 点 状 
态 和 消息 都 是 Map[VertexId，Int] 类 型 的 ， 因 此 需要 把 两 个 map 中 的 内 容 合 并 在 一 起 并 将 
每 个 VertexId 关联 到 两 个 map 中 该 VertexId 对 应 两 个 条 目的 最 小 值 。 











def mergeMaps(m1: Map[VertexId, Int], m2: Map[VertexId, Int]) 
: Map[VertexId, Int] = { 
def minThatExists(k: VertexId): Int = { 
math.min( 
m1.getOrElse(k, Int.MaxValue), 
m2.getOrElse(k, Int.MaxValue)) 


} 


(mi.keySet ++ m2.keySet).map { 
k => (k, minThatExists(k)) 
}.toMap 
} 


顶点 的 update 函数 同样 有 一 个 vertexId 参数 ， 因 此 我 们 定义 一 个 很 简单 的 函数 ， 它 有 
一 个 VertexId 类 型 参数 和 一 个 Map[VertexId，Int] 类 型 参数 ， 但 所 有 实质 性 的 任务 由 
mergeMaps 代理 执行 ， 代 码 如 下 : 











def update( 
id: VertexId, 
state: Map[VertexId, Int], 
msg: Map[VertexId, Int])= { 
mergeMaps(state, msg) 


因为 我 们 在 算法 执行 过 程 中 传递 的 消息 的 类 型 也 是 Map[VertexId，Int]， 并 且 我 们 想 把 这 
些 消息 合并 起 来 并 保留 每 个 键 对 应 的 最 小 值 ， 所 以 我 们 同样 可 以 在 Pregel 运行 的 reduce 阶 
段 使 用 mergeMaps 函数 。 


最 后 一 步 ， 通 常 也 是 最 复杂 的 一 步 : 我 们 需要 编写 代码 来 构建 发 送 给 每 个 顶点 的 消息 ， 依 
据 是 每 次 迭代 时 每 个 顶点 从 邻接 点 收 到 的 信息 。 这 里 的 基本 思想 如 下 : 每 个 顶点 将 当前 的 
Map[VertexId，Int] 中 每 个 键 对 应 的 值 加 1， 然后 用 mergeMaps 方法 把 加 过 1 后 的 map 值 
和 从 邻接 点 收 到 的 值 合 并 ， 如 果 mergeMaps 方法 的 返回 结果 与 邻接 点 内 部 的 Map[VertexId， 
Int] 不 同 ， 就 将 该 结果 发 送 给 邻接 点 。 这 一 系列 操作 的 代码 如 下 : 






























































def checkIncrement( 
a: Map[VertexId, Int], 
b: Map[VertexId, Int], 
bid: VertexId) = { 
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val aplus = a.map { case (v, d) =>v -> (d+1) } 
if (b != mergeMaps(aplus, b)) { 
Iterator((bid, aplus)) 
} elsef{ 
Iterator .empty 
} 
} 


实现 好 checkIncrement 之 后 ， 我 们 来 定义 iterate 函数 。 在 每 个 Pregel 迭代 过 程 中 ， 我 们 
用 这 个 函数 来 对 EdgeTriplet 内 部 的 src 和 dst 顶点 执行 消息 更 新 ， 代 码 如 下 : 








def iterate(e: EdgeTriplet[Map[VertexId, Int], _])={ 
checkIncrement(e.srcAttr, e.dstAttr, e.dstId) ++ 
checkIncrement(e.dstAttr, e.srcAttr, e.srcId) 
} 
每 次 从 代 时 ， 需 要 根据 每 个 顶点 已 经 知道 的 路 径 长 度 来 确定 需要 传递 给 每 个 顶点 的 路 径 长 
度 。 接 着 我 们 需要 返回 一 个 迭代 器 ， 它 包含 一 个 (VertexId，Map[VertexId，Int]) 元 组 ， 
其 中 第 一 个 vertexId 代表 消息 的 目的 顶点 ID ，Map[vertexId，Int] 代表 消息 本 身 。 

















如 果 一 次 迭代 中 有 任何 顶点 没有 收 到 消息 ，pregel 运算 符 会 认为 该 顶点 的 运算 已 经 完成 并 
将 不 再 把 它 包 括 在 后 续 处 理 中 。 一 旦 iterate 方法 没有 消息 发 生 给 任何 顶点 ， 算 法 就 结束 。 








相对 于 其 他 BSP 系统 实现 (比如 Giraph)，GraphX 的 pregel 运算 符 实现 有 
一 个 限制 : GraphX 中 只 有 存在 连接 边 的 顶点 之 间 才 能 发 送 消 息 ， 而 Giraph 
可 以 在 图 中 任何 节点 间 发 送 消 息 。 





现在 完成 了 函数 的 编写 ， 我 们 可 以 准备 BSP 运行 所 需 的 数据 了。 如 果 集 群 内 存 够 多 的 话 ， 
我 们 可 以 用 GraphX 和 Pregel 式 的 算法 计算 任意 两 个 顶点 之 间 的 路 径 长 度 。 但 是 ， 对 只 想 
了 解 图 中 路 径 长 度 的 总 体 分 布 而 言 ， 我 们 没 必 要 这 么 做 。 其 实 我 们 只 需要 在 顶点 的 一 个 
随机 样本 子 集 上 计算 任意 两 个 顶点 之 间 的 路 径 长 度 。 使 用 RDD 的 sample 方法 可 以 对 所 有 
VertexId 进行 2% 的 不 重复 采样 ， 随 机 数 生成 器 的 随机 种 子 采 用 1729L。 



































val fraction = 0.02 

val replacement = false 

val sample = interesting.vertices.map(v => v._1). 
sample(replacement, fraction, 1729L) 

val ids = sample.collect().toSet 


现在 我 们 要 建立 一 个 新 的 Graph 对 象 ， 如 果 一 个 顶点 在 样本 子 集中 ，Graph 对 象 的 顶点 
Map[VertexId，Int] 的 值 非 空 ; 








val mapGraph = interesting.mapVertices((id, _) => { 
if (ids.contains(id)) { 
Map(id -> 0) 
} elsef 





Map[VertexId, Int]() 
} 
}) 


最 后 ， 为 了 触发 算法 的 运行 ， 我们 需要 向 顶点 发 送 一 个 初始 消息 。 对 我 们 讨论 的 算法 而 
言 ， 这 个 初始 消息 是 一 个 空 的 Map[VertexId，Int]。 接 下 来 我 们 就 可 以 调用 pregel 方法 ， 
pregel 方法 后 面 是 在 每 次 色 代 中 要 执行 的 update、iterate 和 mergeMaps 方法 。 


val start = Map[VertexId，Int]() 
val res = mapGraph.pregel(start)(update, iterate, mergeMaps) 





上 面 的 代码 可 能 需要 运行 几 分 钟 。 算 法 的 迭代 次 数 是 样本 集中 最 长 路 径 的 长 度 加 1。 但 代 
码 运行 结束 后 ， 我 们 可 以 用 flatMap 方法 得 到 顶点 的 (VertexId，VertexId，Int) 元 组 ， 它 
就 是 刚才 算出 来 的 不 同 路 径 的 长 度 : 











val paths = res.vertices.flatMap { case (id, m) => 
m.map { case (k, v) => 
if (id < k) { 
(id, k, v) 
} elsef{ 
(k, id, v) 
} 
} 
}.distinct() 
paths .cache() 


我 们 现在 可 以 计算 非 零 路 径 长 度 的 概要 统计 量 和 样本 路 径 长 度 的 直方 图 : 





paths.map(_._3).filter(_ > 0).stats() 
(count: 3197372, mean: 3.63, stdev: 0.78, max: 8.0, min: 1.0) 


val hist = paths.map(_._3).countByValue() 
hist.toSeq.sorted.foreach(println) 
(0,255) 

(1,4336) 

(2,159813) 

(3,1238373) 

(4,1433353) 

(5,335461) 

(6,24961) 

(7,1052) 

(8,23) 


样本 的 平均 路 径 长 度 为 3.63， 上 一 市 我 们 计算 出 了 聚 类 系数 为 0.306。 表 7-1 给 出 了 3 个 
不 同 的 小 世界 网 络 的 平均 路 径 长 度 和 聚 类 系数 ， 同 时 还 给 出 了 对 这 3 个 网 络 进行 随机 采 
样 ( 顶 点数 和 边 数 相同 ) 之 后 的 图 的 相应 概要 统计 量 。 这 些 数据 来 源 于 Auber 等 于 2003 


年 发 表 的 论文 “Multiscale visualization of small world networks” (https://dl.acm.org/citation. 








用 GraphX 分 析 伴 生 网 络 | 149 


cfm?id=1947385 ) 。 


表 7-1: 小 世界 网 络 举例 





平均 路 径 长 度 ( APL )  ” 聚 类 系数 (CC) ”随机 APL 随机 CC 
IMDB 3.20 0.967 2.67 0.024 
macOS9 3.28 0.388 3.32 0.018 
.edu 网 站 4.06 0.156 4.048 0.001 


IMDB 图 是 根据 参 演 同一 部 电影 的 演员 生成 的 ，macOS 9 网 络 描述 的 是 OS 9 中 头 文件 被 
包含 在 相同 源 代码 文件 中 的 情况 。 第 三 行 .edu 网 站 是 关于 以 顶级 域名 .edu 结尾 的 网 站 相 
互 链 接 的 情况 ， 引 用 源 自 Adamic 1999 年 的 一 篇 论文 (http://www.hpl.hp.com/research/idl/ 
papers/smallworld/smallworldpaper.html) 。 我 们 的 分 析 结 果 表 明 ，MEDLINE 论文 引用 索引 
中 的 MeSH 标签 网 络 的 平均 路 径 长 度 和 聚 类 系数 值 ， 与 其 他 知名 的 小 世界 网 络 的 对 应 统 
计量 差不多 。 考 虑 到 平均 路 径 长 度 比较 小 ， 它 们 的 聚 类 系数 比 我 们 预想 的 都 要 大 。 








7.9 小 结 


起 初 人 们 研究 小 世界 网 络 只 是 出 于 好 奇 。 现 实 世 界 的 网 络 有 如 此 多 的 种 类 ， 不 管 它们 来 自 
社会 科学 、 政 治学 ， 还 是 来 自 神经 科学 和 细胞 生物 学 ， 都 有 非常 相似 而 奇特 的 结构 属性 ， 
这 种 现象 非常 有 意思 。 最 近 的 研究 表明 ， 当 这 些 网 络 中 的 小 世界 结构 出 现 异 常 时 ， 就 暗示 
着 这 个 网 络 可 能 发 生 了 功能 性 问题 。 杜 克 大 学 的 Jeffrey Petrella 博士 收集 了 许多 这 方面 的 
研究 (http://pubs.rsna.org/doi/full/10.1148/radiol.11110380)， 这 些 研究 表明 大 脑 神经 元 网 络 
具有 小 世界 结构 ， 这 种 小 世界 结构 异常 的 病人 被 诊断 出 患 有 阿尔 北海 默 症 、 精 神 分 裂 症 、 
抑郁 症 或 注意 力 缺陷 障碍 。 通 常 现 实 世界 中 的 图 都 应 该 具有 小 世界 属性 ， 如 果 设 有 显示 这 
种 属性 则 表示 可 能 存在 问题 ， 比 如 公司 之 间 交 易 或 信托 关系 的 小 世界 图 中 可 能 反映 出 欺诈 
活动 。 





























第 8 和 章 


纽约 出 租车 轨迹 的 空间 和 时 间 数 据 分 析 





作者 : 乔 希 * 威 尔 斯 


时 间 和 空间 最 让 我 困惑 ; 但 也 没什么 不 让 我 那么 困惑 ， 因 为 我 从 来 不 想 别 的 。 
一 一 Charles Lamb 


纽约 的 黄色 出 租车 很 有 名 ， 对 许多 到 纽约 旅游 的 人 来 说 ， 一 边 吃 着 街头 小 店 买 来 的 热狗 ， 


一 边 招呼 黄 色 出 租车 ， 已 经 成 为 旅游 中 不 可 或 缺 的 一 部 分 ， 就 像 一 定 要 坐 电梯 上 帝国 大 厦 
顶层 一 样 。 














纽约 本 地 人 对 探知 何 时 何 地 最 容易 打 到 车 可 谓 各 怀 绝技 ， 特 别 是 高 峰 期 或 下 雨天 。 但 在 每 
天 下 午 4 点 ~ 5 点 出 租车 换班 的 时 段 ， 估 计 像 他 们 这 样 的 高 手 也 只 能 推荐 你 去 坐 地 铁 了 。 
每 天 这 个 时 候 ， 黄 色 出 租车 需要 回 到 调度 中 心 (通常 在 皇后 区 ) 进行 交 班 。 如 果 交 班 晚 
了 ， 司 机 可 是 要 交 蚤 款 的 。 
































2014 年 3 月 ,纽约 市 出 租车 及 礼 车 委员 会 在 其 Twitter 账号 @nyctaxi (https://twitter.com/ 
nyctaxi) 上 公布 了 出 租车 的 信息 图 。 这 个 信息 图 可 以 显示 任意 时 刻 在 途 出 租车 的 数量 和 在 
途 出 租车 被 占用 的 百分比 。 很 显然 ,在 下 午 4 点 ~ 6 点 ， 在 途 车 数 将 大 大 减少 ， 而 且 其 中 
三 分 之 二 的 车 都 被 占用 。 








这 条 推 文 引起 了 城市 规划 专家 Chris Whong 的 注意 ，Chris Whong 可 是 个 数据 迷 ， 他 立刻 
给 @nyctaxi 账号 发 了 一 条 推 文 去 了 解 信 息 图 中 所 用 的 数据 是 否 公开 。 委 员 会 回复 说 只 要 提 
交 一 份 FOIL (Freedom of Information Law， 信 息 自 由 法 律 ) 申请 ， 并 提供 足够 大 的 硬盘 就 
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可 以 拿 到 他 想 要 的 数据 。 于 是 Chris Whong 就 填 好 PDF 申请 表 ， 买 了 两 块 500 GB 的 硬盘 
并 寄 给 委员 会 。 两 个 工作 日 之 后 ，Chris 就 拿 到 了 2013 年 1 月 1 日 至 12 月 31 日 全 年 的 所 
有 出 租车 乘 车 数据 。 更 令 人 高 兴 的 是 ，Chris 甚至 把 所 有 运营 数据 也 公布 到 了 网 上 ， 这 些 
数据 成 为 很 多 漂亮 的 纽约 交通 信息 图 的 依据 。 


出 租车 利用 率 ， 也 就 是 出 租车 有 乘客 乘坐 的 时 间 与 在 途 时 间 的 比例 ， 是 理解 出 租车 经 济 学 
的 一 个 很 重要 的 统计 量 。 影 响 利 用 率 的 一 个 因素 就 是 乘客 的 目的 地 : 如 果 出 租车 乘客 中 午 
时 分 在 联合 广场 附近 下 车 ， 不 出 两 分 钟 肯定 又 有 乘客 上 车 。 但 是 乘客 如 果 是 凌晨 两 点 在 史 
坦 顿 品 下 车 ， 那 这 辆 出 租车 就 只 能 开 回 到 曼哈顿 才能 接 下 一 单 生意 。 我 们 想 对 这 种 影响 进 
行 量化 ， 并 由 此 归结 出 租车 平均 等 单 时 间 与 乘客 下 车 点 区 域 的 函数 关系 ， 这 些 区 域 包括 曼 
哈 顿 区 、 布 鲁 克 林 区 、 皇 后 区 、 布 朗 克 斯 区 、 史 坦 顿 岛 和 其 他 区 域 比如， 乘客 在 纽约 国 
际 机 场 之 类 的 市 郊 下 车 的 情况 ) 。 


进行 数据 分 析 时 我 们 往往 要 处 理 两 类 数据 : 时 间 数 据 (比如 日 期 和 时 间 ) 和 空间 数据 ( 比 
如 经 纬度 和 边界 ) 。 自 本 书 第 1 版 问世 以 来 ， 我 们 在 Spark 中 使 用 时 间 数 据 的 方式 已 经 改 
进 了 很 多 ， 例 如 Java 8 新 发 布 的 java.time 包 ， 以 及 SparkSQL 从 Apache Hive 项 目 集成 
的 UDF， 其 中 包括 许多 时 间 处 理 函 数 ， 例 如 date_add 和 from_timestamp， 这 使 得 Spark 
2x 在 时 间 处 理 上 比 Spark 1x 更 胜 一 筹 。 另 一 方面 ， 空 间 数据 仍然 是 一 种 相当 专业 的 分 析 ， 
需要 依赖 第 三 方 库 ， 并 且 为 了 能 够 在 Spark 中 有 效 地 处 理 这 些 数据 ， 我 们 还 要 编写 自己 的 
UDF。 


8.1 数据 的 获取 

为 了 分 析出 租车 平均 等 单 时 间 与 乘客 下 车 点 区 域 的 函数 关系 ,我 们 只 需要 2013 年 1 月 以 
后 的 打车 费用 数据 ， 这 些 数据 解压 之 后 大 约 有 2.5 GB ， 你 可 以 从 http://www.andresmh.com/ 
nyctaxitrips/ 下 载 2013 年 每 个 月 的 数据 。 如 果 你 手头 有 一 个 足够 大 的 Spark 集群 ， 也 可 以 
在 全 年 的 数据 上 重 现 接 下 来 的 分 析 。 现 在 我 们 先 在 客户 端 机 器 上 建立 一 个 工作 目录 ， 然 后 
看 一 下 运营 数据 的 结构 ， 代 码 如 下 : 




















































































































$ mkdir taxidata 

$ cd taxidata 

$ curl -0 https://nyctaxitrips.blob.core.windows.net/data/trip data 1.csv.zip 
$ unzip trip_data 1.csv.zip 

$ head -n 10 trip data 1.csv 


除了 文件 头 ，CSYV 文件 每 行 数据 代表 一 次 打车 记录 。 每 条 打车 记录 包含 如 下 信息 : 出 租车 
(车 牌号 的 散 列 )、 司 机 (出 租车 司机 驾照 号 的 散 列 )、 打 车 的 开始 时 间 和 结束 时 间 ， 以 及 
乘客 上 车 点 和 下 车 点 的 经 纬度 坐标 。 











8.2 ”基于 Spark 的 第 三 方 库 分 析 


Java 平台 的 一 大 特点 就 是 多 年 来 用 这 个 语言 开发 了 大 量 代 码 : 对 于 你 可 能 用 到 的 任何 数据 
结构 和 算法 ， 很 可 能 早 就 有 人 写 好 了 一 个 用 于 解决 这 个 问题 的 Java 库 ， 而 且 很 可 能 有 个 开 
源 的 版 本 可 以 下 载 来 用 ， 根 本 不 用 付 什 么 许可 费 。 


当然 ， 我 们 不 能 因为 有 这 样 一 个 免费 的 库存 在 就 一 定 要 使 用 它 ， 开 源 项 目的 质量 参差 不 
齐 ，bug 修复 和 新 特性 的 进展 状态 也 不 一 样 ， 而 且 API 设计 和 文档 与 教程 的 易 用 性 也 不 
相同 。 


我 们 选择 工具 的 过 程 和 开发 人 员 为 应 用 开发 选择 工具 的 过 程 不 太一 样 。 我 们 希望 选择 的 工 
具 便 于 交互 式 数据 分 析 ， 并 且 易 于 分 布 式 应 用 使 用 。 具 体 来 说 ， 我 们 需要 确保 在 RDD 中 
要 处 理 的 主要 数据 类 型 支持 Serializable 接口 ， 最 好 还 能 方便 地 用 Kryo 之 类 的 库 进 行 序 
列 化 。 


除 此 之 外 ， 我 们 还 希望 用 于 交互 式 分 析 的 库 的 外 部 依赖 越 少 越 好 。 虽 然 Maven 和 SBT 之 
类 的 工具 可 以 帮助 应 用 开发 人 员 在 构建 引用 时 处 理 复 杂 的 依赖 关系 ， 但 我 们 希望 用 一 个 
JAR 文件 搞定 所 有 代码 ， 只 要 把 这 个 JAR 加 载 到 Spark shell 中 就 可 以 开始 数据 分 析 了 。 然 
而 ， 在 Spark 中 载 入 许多 依赖 库 可 能 会 导致 它们 与 Spark 自身 所 依赖 的 其 他 库 之 间 的 版 本 
冲突 ， 这 种 错误 非常 难 调 试 ， 被 开发 人 员 称 为 JAR 灾难 。 

























































































最 后 ， 我 们 希望 工具 的 API 相对 简单 而 且 功 能 丰富 ， 不 需要 使 用 那些 花哨 的 面向 Java 的 设 
计 模 式 ， 比 如 什么 抽象 工厂 和 访问 者 之 类 的 模式 。 虽 然 这 些 模式 对 应 用 开发 人 员 可 能 很 有 
用 ， 但 它们 往往 在 代码 中 引入 与 分 析 无 关 的 复杂 度 。Scala 提供 了 对 许多 Java 工具 的 封装 ， 
利用 这 些 封装 可 以 在 使 用 Scala 时 减少 设计 模式 所 需 的 程式 化 代码 ， 如 果 我 们 的 工具 也 能 
这 样 那 就 更 好 了 1! 


























8.3 ”基于 Esri Geometry API 和 Spray 的 地 理 空间 
数据 处 理 


在 Java 8 中 使 用 时 间 数 据 变 得 非常 容易 ， 这 要 感谢 java.time 包 ， 它 是 基于 非常 成 功 的 
JodaTime 库 设 计 的 。 对 地 理 空间 数据 来 说 ， 问 题 就 没 这 么 简单 了 。 这 是 因为 有 非常 多 不 同 
的 工具 和 库 ， 这 些 工 具 和 库 又 有 不 同 的 功能 、 开 发 状态 和 成 熟 度 ， 目 前 并 没有 一 个 主流 的 
Java 库 对 所 有 地 理 空间 应 用 场景 都 适用 。 


选择 类 库 时 ， 首 先 要 确定 需要 处 理 哪 种 空间 数据 。 地 理 数 据 主要 分 为 矢量 和 光栅 两 种 ， 每 
一 种 都 有 不 同 的 处 理工 具 。 在 本 章 的 场景 中 ， 我 们 有 出 租车 乘客 上 车 点 和 下 车 点 的 经 纬度 
数据 ， 以 及 表示 纽约 各 个 区 边界 的 矢量 数据 ， 这 些 矢 量 数据 用 GeoJSON 格式 存储 。 因 此 
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我 们 需要 一 个 可 以 解析 GeoJSON 数据 并 能 处 理 其 空间 关系 的 工具 。 有 具体 来 说 ， 就 是 该 工 
有 具 可 以 判断 某 经 纬度 所 代表 的 点 是 否 在 某 个 区 边界 所 组 成 的 多 边 形 中 。 








不 幸 的 是 ， 目 前 没有 一 个 开源 的 库 正 好 能 满足 我 们 的 要 求 。 有 一 个 GeoJSON 的 解析 工具 
可 以 把 GeoJSON 转换 成 Java 对 象 ， 但 没有 相关 的 地 理 空间 工具 能 对 转换 得 到 的 对 象 进行 
空间 关系 分 析 。 有 一 个 名 叫 GeoTools 的 项 目 ， 但 它 的 组 件 和 依赖 关系 实在 太 多 ， 我 们 不 
希望 在 Spark shell 中 选用 有 大 多 复杂 依赖 的 工具 。 最 后 有 一 个 Java 版 本 的 Esri Geometry 
API， 它 的 依赖 很 少 而 且 可 以 分 析 空 间 关 系 ， 但 它 只 能 解析 GeoJSON 标准 的 一 个 子 集 ， 因 
此 我 们 必须 对 下 载 的 GeoJSON 数据 做 一 些 预 处 理 。 












































对 数据 分 析 师 而 言 ， 没 有 工具 就 无 法 解决 问题 。 但 我 们 可 是 数据 科学 家 啊 ! 如 果 手 头 的 工 
有 具 解 决 不 了 问题 ， 那 我 们 就 自己 创建 一 个 新 工具 。 对 本 章 要 解决 的 问题 而 言 ， 为 了 解析 所 
有 的 GeoJSON 数据 ， 我 们 要 加 入 新 的 Scala 功能 ， 其 中 包括 Scala Esri Geometry API 不 能 
处 理 的 功能 。 有 许多 Scala 项 目 提 供 JSON 数据 解析 功能 ， 我 们 使 用 其 中 一 个 来 实现 这 些 
功能 。 接 下 来 几 节 中 的 代码 可 以 在 本 书 的 GitHub 资料 库 (https://github.com/jwills/geojson) 
上 找到 ， 这 些 Scala 代码 可 以 用 于 任何 地 理 空间 分 析 项 目 。 















































8.3.1 认识 Esri Geometry API 


Esri 库 的 核心 数据 类 型 是 Geometry 对 象 ， 一 个 Geometry 代表 一 个 形状 和 它 所 在 的 地 理 位 
置 ，Esri 提供 了 一 组 空间 分 析 操 作用 于 分 析 几 何 图 像 及 其 关系 。 























这 些 操作 包括 计算 几何 图 形 的 面积 、 判 断 两 个 图 形 是 否 重 倒 和 求 两 个 图 形 相 加 所 得 到 的 几 
何 图 形 。 
对 本 音 示 例 来 讲 ， 我 们 有 表示 出 租车 乘客 下 车 地 点 (经 度 和 纬度 ) 的 几何 图 形 ， 也 有 表示 


纽约 市 行政 区 域 范围 的 几何 图 形 。 我 们 想 知道 它们 的 包含 关系 : 一 个 给 定 的 位 置 点 是 否 在 
曼哈顿 区 对 应 的 多 边 形 里 边 ? 









































Esri API 有 一 个 助手 类 GeometryEngine， 它 提供 了 执行 所 有 空间 关系 操作 的 静态 方法 ， 其 
中 就 包括 contains 操作 。contains 方 法 有 3 个 参数 : 两 个 Geometry 实例 参数 和 一 个 
SpatialReference 实例 参数 。SpatialReference 实例 参数 表示 用 于 地 理 空间 计算 的 坐标 系 
统 。 为 了 提高 精度 ， 我 们 需要 分 析 地 球 球体 上 的 点 上 映射 到 二 维 坐 标 系 统 后 相对 于 坐标 平 
看 的 空间 关系 。 地 理 空 间 工程 师 有 一 套 标 准 的 通用 标识 符 (well-known identifier， 称 为 
WKID)， 是 一 套 最 常用 的 坐标 系统 。 这 里 我 们 将 采用 WKID 4326， 它 也 是 GPS 所 用 的 坐 


作为 Scala 开发 人 员 ， 我 们 总 是 想方设法 减少 在 Spark shell 中 进行 交互 式 数据 分 析 时 输入 


的 代码 量 。 在 Spark shell 中 可 不 像 Eclipse 和 IntelliJ 那样 能 自动 为 我 们 补 全 长 方法 名 ， 也 
不 能 像 这 些 开发 环境 一 样 提供 语法 糖 来 辅助 看 懂 某 种 操作 。 根 据 NScalaTime 库 ( 它 定义 
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了 包装 类 RichDateTime 和 RichDuration) 的 命名 规范 ， 我 们 将 定义 自己 的 RichGeometry 
长 ， 它 扩展 了 Esri Geometry 对 象 并 提供 一 些 有 用 的 辅助 方法 ， 代 码 如 下 : 

















import com.esri.core.geometry.Geometry 
import com.esri.core.geometry.GeometryEngine 
import com.esri.core.geometry.SpatialReference 


class RichGeometry(val geometry: Geometry, 
val spatialReference: SpatialReference = 
SpatialReference.create(4326)) { 
def area2D() = geometry.calculateArea2D() 


def contains(other: Geometry): Boolean = { 
GeometryEngine.contains(geometry, other, spatialReference) 


} 


def distance(other: Geometry): Double = { 
GeometryEngine.distance(geometry, other, spatialReference) 
} 
} 


我 们 将 为 Geometry 定义 一 个 伴生 对 象 ， 它 可 以 将 Geometry 类 实例 隐 式 转换 为 RichGeometry 
类 型 
object RichGeometry{ 
implicit def wrapRichGeo(g: Geometry) = { 
new RichGeometry(g) 


} 
} 


记 住 ， 要 想 这 种 转换 起 作用 ， 需 要 在 Scala 环境 中 导入 这 个 隐 式 函数 定义 ， 代 码 如 下 : 


import RichGeometry._ 


8.3.2 GeoJSON 简 介 


表示 纽约 市 行政 区 域 范围 的 数据 是 GeoJSON 格式 的 ，GeoJSON 中 核心 的 对 象 称 为 特征 ， 
特征 由 一 个 geometry 实例 和 一 组 称 为 属性 (property) 的 键 一 值 对 组 成 。 其 中 geometry 可 
以 是 点 、 线 或 多 边 形 。 一 组 特征 称 为 FeatureCottection。 现 在 我 们 把 纽约 市 行政 区 地 图 的 
GeoJSON 数据 下 载 下 来 ， 然 后 看 看 它 的 结构 。 














Ce 























将 数据 下 载 到 客户 端 机 器 上 的 taxidata 目录 ， 并 将 文件 名 改 短 : 





$ curl -0 https://nycdatastabLes.s3.amazonaws.Com/2013-08-19T18:15:35.172Z/ 
nyc-borough-boundaries-polygon.geojson 
$ mv nyc-borough-boundaries-polygon.geojson nyc-boroughs.geojson 
打开 文件 然后 观察 一 下 特征 记录 ， 注 意 属性 和 几何 图 形 对 象 。 对 本 章 示 例 而 言 ， 也 就 是 表 
示 行政 区 域 范 围 的 多 边 形 和 保护 行政 区 域名 称 及 其 他 相关 信息 的 属性 。 
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可 以 用 Esri Geometry API 解析 每 个 特征 内 部 的 几何 JSON， 但 这 个 API 不 能 帮 有 我 们 解析 id 
或 properties 字段 ，properties 字段 可 能 是 任何 JSON 对 象 。 为 了 解析 这 些 对 象 ， 要 用 到 
Scala 的 JSON 库 ， 这 样 的 库 有 很 多 。 











这 里 正好 可 以 用 Spray， 它 是 一 个 用 Scala 构建 Web 服务 的 开源 工具 包 。 通 过 隐 式 调用 
spray-json 的 toJson 方法 ， 可 以 将 任何 Scala 对 象 转 换 成 相应 的 JsValue。 也 可 以 通过 调用 
它 的 parseJson 方法 将 任何 JSON 格式 的 字符 串 转 换 成 一 个 中 间 类 型 ， 然 后 在 中 间 类 型 上 
调用 convertTo[T] 将 其 转换 成 一 个 Scala 类 型 T。Spray 内 置 了 对 常用 Scala 原子 类 型 、 元 
组 和 集合 类 型 的 转换 实现 ， 同 时 也 提供 了 一 个 格式 化 工具 ， 该 工具 可 以 定义 自 定 义 类 型 
(比如 RichGeometry) 与 JSON 之 间 相 互 转换 的 规则 。 


首先 为 表示 GeoJSON 的 特征 将 建立 一 个 case 类 。 根 据 规范 ， 特 征 是 一 个 JSON 对 象 ， 它 
必须 有 一 个 geometry 字段 和 一 个 properties 字段 。geometry 代表 GeoJSON 的 几何 类 型 ， 
properties 则 是 一 个 JSON 对 象 ， 可 以 包含 任意 个 数 和 类 型 的 键 - 值 对 。 特 征 也 可 以 有 一 
个 可 选 字 段 td， 表示 任何 JSON 标识 符 。 我 们 的 case 类 的 Feature 将 为 每 个 JSON 字段 定 
义 相应 的 Scala 字段 ， 同 时 它 还 提供 了 在 属性 map 中 查找 值 的 辅助 方法 : 


























import spray.json.JsValue 


case class Feature( 
val id: Option[JsValue], 
val properties: Map[String, JsValue], 
val geometry: RichGeometry) { 
def apply(property: String) = properties(property) 
def get(property: String) = properties.get(property) 
} 


我 们 使 用 RichGeometry 类 实例 来 表示 Feature 中 的 geometry 字段 。 我 们 通过 Esri Geometry 
API 的 GeoJSON 图 形 解析 函数 创建 RichGeometry 类 实例 。 





还 需要 为 GeoJson FeatureCollection 定义 一 个 case 类 。 为 了 使 FeatureCollection 类 更 易 
于 使 用 ， 实 现 apply 和 Length 这 两 个 抽象 方法 ， 就 能 让 它 扩展 IndexedSeq[Feature] 这 个 
trait。 这 样 就 能 直接 在 FeatureCollection 实例 上 调用 标准 的 Scala Collections API 的 方法 ， 
比如 map、fitLter 和 sortBy 等 ， 而 不 用 访问 底层 的 Array[Feature] 。 





case class FeatureCollection(features: Array[Feature]) 
extends IndexedSeq[Feature] { 
def apply(index: Int) = features(index) 
def Length = features.Length 
} 





在 定义 表示 GeoJSON 数据 的 case 类 之 后 ， 还 需要 定义 领域 对 象 (RichGeometry、Feature 
和 FeatureCollection) 与 相应 的 JsValue 实例 之 间 相 互 转换 的 格式 。 为 此 要 创建 Scala 的 
单 例 对 象 ， 这 些 对 象 扩 展 了 RootJsonFormat[T] trait， 这 个 trait 定义 了 抽象 方法 read(jsv: 
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JsValue): T 和 write(t: T): JsValue。 对 于 RichGeometry 类 ， 我 们 可 以 将 大 部 分 的 解析 和 
格式 化 逻辑 委派 给 Esri Geometry API， 也 就 是 GeometryEngine 类 的 geometryToGeoJson 和 
geometryFromGeoJson 方法 。 但 对 我 们 定义 的 case 类 ， 我 们 需要 自己 编写 格式 化 逻辑 。 下 
面 是 Feature 这 个 case 类 的 格式 化 代码 ， 其 中 包含 了 一 些 为 处 理 可 选 字段 id 的 特殊 逻辑 : 


implicit object FeatureJsonFormat extends 
RootJsonFormat[Feature] { 
def write(f: Feature) = { 
val buf = scala.collection.mutable.ArrayBuffer( 
"type" -> JsString("Feature"), 
"properties" -> JsObject(f.properties), 
"geometry" -> f.geometry.to]Json) 
f.id.foreach(v => { buf += "id" -> v}) 
JsObject(buf.toMap) 
} 


def read(value: JsValue) = { 
val jso = value.asJsObject 
val id = jso.fields.get("id") 
val properties = jso.fields("properties").asjJsObject.fields 
val geometry = jso.fields("geometry").convertTo[RichGeometry] 
Feature(id, properties, geometry) 


} 
} 


FeatureJsonFormat 对 象 中 的 implicit 关键 字 是 为 了 Spray 库 可 以 在 JsValue 实例 上 调用 
convertTo[Feature] 时 进行 查找 。 可 以 在 GitHub 上 找到 GeoJSON 库 实现 RootJsonFormat 
的 其 余 源 代码 。 


8.4 纽约 市 出 租车 客运 数据 的 预 处 理 


现在 我 们 手头 上 有 了 GeoJSON 和 JodaTime 库 ， 该 开始 用 Spark 对 纽约 市 出 租车 客运 数据 
进行 交互 式 分 析 了 ! 先 在 HDFS 上 建立 一 个 taxidata 目录 ， 并 将 载 客 数据 复制 到 集群 上 : 





























$ hadoop fs -mkdir taxidata 
$ hadoop fs -put trip data 1.csv taxidata/ 


现在 启动 Spark shell， 使 用 --jars 参数 ， 将 要 用 到 的 库 导 入 REPL 中 : 





$ mvn package 
$ spark-shell --jars ch08-geotime-2.0.0-jar-with-dependencies.jar 





让 











且 





Spark shell 加 载 完 成 后 ， 就 可 以 像 在 其 他 章 中 一 样 ， 用 出 租车 数据 创建 一 个 数据 集 ， 寺 
检查 一 下 前 儿 行 的 数据 : 





val taxiRaw = spark.read.option("header", "true").csv("taxidata") 
taxiRaw. show() 
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出 租车 数据 看 起 来 是 一 个 格式 良好 的 CSV 文件 ， 具 有 了 明确 定义 的 数据 类 型 。 在 第 2 章 中 ， 
我 们 使 用 spark-csv 中 内 置 的 类 型 推断 库 ， 自 动 将 CSV 数据 从 字符 串 转 换 为 列 的 特定 类 
型 ， 这 种 自动 转换 的 成 本 是 双重 的 。 第 一 ， 需 要 额外 遍历 一 次 数据 ， 以 便 转换 器 可 以 推断 
出 每 一 列 的 类 型 。 第 二 ， 即 使 只 想 分 析 数 据 集中 列 的 一 个 子 集 ， 也 需要 花费 额外 的 资源 ， 
来 推断 那些 不 会 用 到 的 列 的 类 型 。 对 于 较 小 的 数据 集 而 言 ， 比 如 我 们 在 第 2 章 中 分 析 的 记 
孙 关 联 数据 ， 额 外 的 推断 开销 可 以 忽略 不 计 。 但 是 对 于 计划 多 次 反复 分 析 的 超大 数据 集 ， 
花 些 时 间 编 写 代 码 ， 对 确定 需要 的 列 进行 自 定义 类 型 转换 ， 这 样 做 是 值得 的 。 本 章 将 通过 
自 定 义 代 码 自 行 完 成 转换 。 


我 们 来 定义 一 个 case 类 ， 它 包含 了 分 析 时 我 们 要 用 到 的 每 条 打车 记录 信息 。 由 于 我 们 要 使 
用 这 个 样 例 类 作为 Dataset 的 基础 ， 需 要 注意 的 一 点 是 ，Dataset 只 能 针对 一 小 部 分 数据 类 
型 进行 优化 ， 包 括 字 符 串 、 原 子 类 型 ( 像 Int、Double 等 ) 和 某 些 特殊 的 Scala 类 型 (如 
Option)。 如 果 要 利用 Dataset 类 提供 的 性 能 增强 和 实用 分 析 工 具 ， 我 们 的 样 例 类 只 能 包含 
属于 这 些 类 型 的 字段 。[ 请 注意 ， 下 面 的 代码 清单 仅仅 是 完整 代码 的 说 明 性 摘录 ， 如 果 需 
要 执行 本 章 的 所 有 代码 ， 请 参阅 附带 的 第 8 章 的 源 代码 库 (https://github.com/sryza/aas/tree/ 


master/ch08-geotime) ， 特 别 是 GeoJson.scala。] 





















































Case CLass Trip( 
License: String， 
pickupTime: Long， 
dropoffTime: Long， 
pickupX: Double, 
pickupY: Double, 
dropoffX: Double, 
dropoffY: Double) 


我 们 将 pickupTime 和 dropoffTime 字段 表示 为 长 整 型 ， 其 值 代表 从 Unix 纪元 以 来 的 毫秒 
数 ， 并 将 各 个 上 下 车 位 置 的 xy 坐标 存储 在 单独 的 字段 中 ， 即 使 我 们 通常 处 理 坐 标 值 的 方 
式 是 将 坐标 转换 成 Esri API 中 Point 类 的 实例 。 


为 了 将 taxiRaw 数据 集中 的 Row 对 象 解析 为 case 类 的 实例 ， 需 要 创建 一 些 辅助 对 象 和 函 
数 。 首 先 ， 需 要 注意 数据 中 某 些 行 的 某 些 字段 很 可 能 是 缺失 的 ， 因 此 当 我 们 从 Row 对 象 中 
访问 它们 之 前 ， 需 要 先 确 认 它 们 是 否 为 空 ， 否 则 程序 会 抛 出 一 个 错误 。 我 们 可 以 编写 一 个 
小 的 帮助 类 来 解决 这 个 问题 。RichRow 类 可 以 处 理 我 们 需要 解析 的 任何 一 种 Row 对 象 : 






































class RichRow(row: org.apache.spark.sqL.Row) { 
def getAs[T](field: String): Option[T] = { 
if (row.isNullAt(row.fieldIndex(field))) { 
None 
} else{ 
Some(row.getAs[T](field)) 











在 RichRow 类 中 ，getAs[T] 方法 总 是 返回 一 个 option[T]， 而 不 是 直接 返回 原始 值 。 如 有 果 























返回 原始 值 ， 我 们 可 以 明确 处 理解 析 一 个 Row 对 象 时 出 现 的 缺少 字段 的 情况 。 在 这 个 例子 
中 ， 数 据 集中 的 所 有 字段 都 是 字符 串 ， 所 以 我 们 只 需要 处 理 0ption[String] 类 型 的 值 。 


接 下 来 ， 我 们 需要 使 用 Java 的 simpleDateFormat 类 的 实例 来 处 理 上 下 车 时 间 ， 并 使 用 适当 
的 格式 化 字符 串 来 获取 以 毫秒 为 单位 的 时 间 





























def parseTaxiTime(rr: RichRow, timeField: String): Long= { 
val formatter = new SimpleDateFormat( 
"yyyy-MM-dd HH:mm:ss", Locale.ENGLISH) 
val optDt = rr.getAs[String](timeField) 
optDt.map(dt => formatter.parse(dt).getTime).getOrELse(OL) 


} 





后 ， 我 们 将 使 用 Scala 的 隐 式 toDouble 方法 解析 上 下 车 位 置 的 经 度 和 纬度 ， 将 String 隐 
式 地 转 为 Double， 如 果 坐 标 缺 失 ， 则 使 用 默认 值 0.9: 




















def parseTaxiLoc(rr: RichRow, locField: String): Double = { 
rr.getAs[String](LocFieLd) .map(_.toDoubLe) .getOrELse(0.0) 


} 


把 这 些 函 数 放 在 一 起 ， 得 到 如 下 的 parse 方法 : 


def parse(row: org.apache.spark.sql.Row): Trip = { 
val rr = new RichRow(row) 


Trip( 


License = rr.getAs[String]("hack_license").orNull, 
pickupTime = parseTaxiTime(rr, "pickup_datetime"), 
dropoffTime = parseTaxiTime(rr, "dropoff_datetime"), 
pickupX = parseTaxiLoc(rr, "pickup_longitude"), 
pickupY = parseTaxiLoc(rr, "pickup_latitude"), 
dropoffX = parseTaxiLoc(rr, "dropoff_longitude"), 
dropoffY = parseTaxiLoc(rr, "dropoff_latitude") 


) 
} 


可 以 用 taxiRaw 的 前 几 条 数据 来 测试 parse 函数 ， 以 此 来 验证 它 是 否 能 正确 处 理 样 本 数据 。 


8.4.1 大 规模 数据 中 的 非法 记录 处 理 
实际 处 理 过 大 规模 数据 集 的 人 都 知道 ， 这 些 数 据 集中 总 有 儿 条 记录 的 格式 不 满足 代码 的 要 
求 。 许 多 MapReduce 作业 和 Spark 处 理 管道 会 因为 无 法 正常 解析 非法 记录 而 抛 出 异常 ， 致 


使 运行 失败 。 











我 们 可 以 逐个 排除 这 些 异 常 ， 先 检查 任务 日 志 ， 然 后 分 析 抛 出 异常 的 每 行 代码 ， 再 修改 代 


码 以 忽略 或 修正 非法 记录 。 这 人 








个 过 程 相 当 温 长 乏味 ， 而 且 常 常 像 是 在 玩 打 器 鼠 游 戏 : 刚 解 








决 好 一 个 异常 ， 分 区 中 后 男 





[的 某 条 记录 上 又 冒 出 了 另 一 个 异常 。 
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有 经 验 的 数据 科学 家 在 处 理 新 数据 集 时 常用 的 一 个 策略 就 是 在 解析 代码 中 增加 一 个 try- 
catch 块 ， 这 样 任何 非法 记录 就 都 可 以 写 入 到 日 志 中 而 不 会 导致 整个 作业 失败 。 如 果 整 个 
数据 集中 只 有 几 条 非法 记录 ， 忽 略 掉 这 些 记录 并 继续 分 析 应 该 没 问题 。 有 了 Spark， 我 们 
甚至 可 以 做 得 更 好 : 通过 调整 解析 代码 ， 可 以 对 数据 中 的 非法 记录 进行 交互 式 分 析 ， 就 和 
其 他 分 析 一 样 轻松 。 


对 RDD 或 数据 集中 的 每 条 记录 ， 解 析 代 码 的 结果 可 能 有 两 个 : 要 么 成 功 解析 并 返回 一 条 
有 意义 的 结果 ， 要 么 失败 并 抛 出 异常 。 抛 出 异常 时 我 们 希望 得 到 非法 记录 本 身 和 所 抛 出 
的 异常 。 当 操作 结果 有 两 种 互 斥 的 结果 时 ， 可 以 使 用 Scala 的 Either[L，R] 类 型 来 表示 
操作 的 返回 类 型 。 对 我 们 本 章 的 问题 来 说 ，L (left) 结果 代表 成 功 解析 得 到 的 记录 ， 而 R 
(right) 结果 是 一 个 由 异常 和 引起 异常 的 记录 组 成 的 二 元 组 。 
















































































safe 函数 接受 一 个 输入 类 型 为 9 => T 的 参数 ff 并 且 返 回 一 个 新 的 s => Either[T，(S， 
Exception)] 类 型 ， 它 会 返回 调用 f 的 结果 ， 或 者 在 抛 出 异常 时 返回 包含 非法 输入 值 和 蜡 
常 本 身 组 成 的 元 组 : 





























def safe[S, T](f: S => T): S => Either[T, (S, Exception)] = { 
new Function[S, Either[T, (S, Exception)]] with Serializable { 
def apply(s: S): Either[T, (S, Exception)] = { 
try { 
Left(f(s)) 
} catch { 
case e: Exception => Right((s, e)) 
} 
} 
} 
} 


现在 可 以 通过 向 safe 函数 传 入 parse 函数 (类 型 为 string => Trip) 来 得 到 一 个 更 加 安全 
的 包装 函数 safeParse， 然 后 在 taxiRaw 数据 集 底层 的 RDD 上 调用 safeParse: 





val safepParse = safe(parse) 
val taxiparsed = taxiRaw.rdd.map(safeParse) 


(注意 ， 不 能 直接 将 safeParse 应 用 于 taxiRaw 数据 集 ， 因 为 Dataset API 不 支持 Either[L， 
R] 类 型 。) 





如 果 想 要 知道 输入 行 中 成 功 解析 的 记录 数量 ， 可 以 用 Either[L，R] 的 isLeft 方法 ， 并 结 
合 使 用 countByValue 这 个 动作 : 





taxiparsed.map(_.isLeft). 
countByValue(). 
foreach(println) 


(true,14776615) 











气 真 好 一 一 在 记录 解析 过 程 中 没有 抛 出 异常 ! 我 们 现在 可 以 通过 获取 Either 值 左边 的 元 
， 将 taxiparsed RDD 转换 为 Dataset[Trip] 实例 : 











涤 六 I 


val taxiGood = taxiparsed.map(_.left.get).toDS 
taxiGood.cache() 


即使 taxiGood 数据 集中 的 记录 解析 正确 ， 它 们 也 还 可 能 存在 数据 质量 问题 ， 这 些 问 题 有 待 


我 们 进一步 发 现 和 处 理 。 为 了 找 出 这 些 遗 留 的 数据 质量 问题 ， 我 们 要 思考 每 条 正确 的 乘 车 
记录 都 应 该 满足 的 期 望 条 件 。 





考虑 到 乘 车 数据 的 时 间 特 性 ， 任 何 乘 车 记录 的 下 车 时 间 都 比 上 车 时 间 晚 是 一 个 合理 的 规 
则 。 同 样 我 们 可 以 期 望 乘 车 时 间 不 超过 几 个 小 时 ， 虽 然 确实 有 可 能 存在 这 样 耗 时 较 长 的 乘 
车 记录 ， 比 如 高 峰 期 打车 或 遇 到 事故 延误 的 情况 时 打车 要 几 个 小 时 是 可 能 的 。 将 “合理 ” 
的 打车 时 间 的 国 值 设 为 多 少 合适 ， 我 们 对 此 不 是 很 确定 。 











我 们 来 定义 一 个 辅助 方法 hours， 它 使 用 Java 的 辅助 方法 TimeUntt， 将 上 下 车 时 间 的 差 值 
从 毫 秒 转 换 为 小 时 : 





val hours = (pickup: Long, dropoff: Long) => { 
TimeUnit .HOURS .convert(dropoff - pickup, TimeUnit.MILLISECONDS) 
} 


我 们 希望 能 够 使 用 我 们 的 hours 函数 ， 计 算 持 续 给 定 小 时 数 以 上 行程 的 直方 图 分 布 。 
Dataset API 和 Spark SQL 就 是 为 这 种 计算 而 设计 的 ， 但 是 默认 情况 下 ， 我 们 只 能 在 
Dataset 实例 的 列 上 使 用 这 些 方法 ， 而 hour UDF 是 从 pickupTime 和 dropoffTime 这 两 列 中 
计算 出 来 的 。 我 们 需要 一 种 机 制 ， 将 hours 函数 应 用 于 数据 集中 的 列 ， 然 后 执行 我 们 熟悉 
的 正常 过 滤 和 分 组 操作 。 





这 正 是 设计 Spark SQL UDF 的 目标 用 例 。 通 过 在 Spark 的 UserDefinedFunction 类 的 实例 中 
包装 Scala 函数 ， 我 们 可 以 将 该 函数 应 用 于 Dataset 中 的 列 并 分 析 结 果 。 首 先 将 hours 封装 
到 UDF 中 ， 然 后 计算 我 们 的 直方 图 : 








import org.apache.spark.sqL.functions .udf 
val hoursUDF = udf(hours) 
taxiGood. 
groupBy(hoursUDF($"pickupTime", $"dropoffTime").as("h")). 


| 8] 1| 
| 6122355710| 
| 1| 22934| 
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2| 843| 


197| 
4| 86| 
5| 55| 


LU 


现在 看 起 来 都 不 错 ， 只 有 一 条 打车 记录 除外 ， 它 的 乘 车 时 间 为 -8 小 时 ! 难道 是 电影 《 回 
到 未 来 》 中 德 洛 雷 安 在 纽约 开 出 租 挣 外 快 ” 让 我 们 来 一 探究 竞 : 




















taxiGood. 
where(hoursUDF($"pickupTime", $"dropoffTime") < 0). 
collect(). 
foreach(println) 


这 给 出 了 那 条 奇怪 的 记录 ， 打 车 开始 于 1 月 25 日 下 午 6 点 ,在 同一 天 上 午 10 点 前 结束 。 


我 们 看 不 出 来 这 条 打车 记录 到 底 哪 里 出 了 错 。 但 是 由 于 看 起 来 只 有 一 条 记录 是 这 种 情况 ， 
直接 将 它 从 记录 中 去 掉 应 该 没 问题 。 











现在 观察 剩余 的 那些 小 时 数 大 于 零 的 记录 ， 绝 大 多 数 出 租车 乘坐 记录 看 起 来 不 超过 3 个 小 
时 。 我 们 将 对 taxiGood RDD 进行 过 滤 ， 只 需要 关心 “典型 ”的 乘坐 记录 的 分 布 而 暂时 名 
略 那些 异常 情况 。 因 为 在 Spark SQL 中 表示 这 个 过 滤 条 件 要 容易 一 些 ， 所 以 用 “hours” 这 
个 名 字 到 Spark SQL 中 注册 我 们 的 hours 函数 ， 以 便 在 SQL 表达 式 中 使 用 它 : 























spark.udf.register("hours", hours) 
val taxiClean = taxiGood.where( 

"hours(pickupTime, dropoffTime) BETNEEN 0 AND 3" 
) 





UDF， 用 还 是 不 用 ? 
通过 Spark SQL， 很 容易 将 业务 逻辑 嵌入 到 标准 SQL 可 用 的 函数 中 ， 就 像 我 们 对 
hours 涵 数 所 做 的 那样 。 基 于 这 一 考虑 ， 你 可 能 会 认为 将 所 有 业务 逻辑 转换 为 UDF 是 
一 个 好 主意 ， 这 样 做 也 便于 重用 、 测 试 和 维护 。 但 是 ， 在 代码 中 大 量 使 用 UDF 之 前 ， 
需要 了 解 一 些 关 于 UDF 的 注意 事项 。 


首先 ，UDF 对 Spark 的 SQL 查询 计划 器 和 执行 引擎 是 不 透明 的 ， 而 标准 的 SQL 查询 
语法 却 是 透明 的 。 因 此 ， 使 用 UDE 而 不 是 直接 写 SQL 表达 式 ， 可 能 会 影响 查询 性 能 。 


其 次 ， 在 Spark SQL 中 处 理 空 值 很 快 变 得 复杂 起 来 ， 特 别 是 对 于 处 理 多 个 参数 的 
UDF。 编 写 的 UDF 若 要 正确 地 处 理 空 值 ， 需 要 使 用 Scala 的 Option[T] 类 型 ， 或 者 使 
用 Java 包装 类 型 (如 java.Lang.Integer 和 java.Lang.DoubLe)， 而 不 是 Scala 中 的 基 
本 类 型 Int 和 Double, 











8.4.2 地理 空间 分 析 
现在 我 们 从 地 理 空 间 角度 来 检查 出 租车 数据 。 对 每 次 乘 车 记录 ， 我 们 各 用 一 对 经 纬度 来 表 





A 
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示 乘 客 的 上 车 地 点 和 下 车 地 点 。 我 们 想 确定 这 两 对 经 纬度 分 别 属 于 哪个 行政 区 ， 并 且 要 找 
出 那些 起 点 不 在 纽约 5 个 行政 区 之 内 的 记录 。 上 比如， 如果 是 从 曼哈顿 打车 到 纽约 国际 机 
场 ， 这 条 记录 应 该 是 合法 的 ， 虽 然 它 的 终点 并 不 在 5 个 行政 区 之 内 。 但 如 果 打 车 的 终点 是 
南极 ， 我 们 就 有 理由 相信 记录 是 非法 的 并 且 应 该 将 其 排除 在 分 析 之 外 。 























为 了 分 析 行 政 区 ， 需 要 将 前 面 下 载 的 GeoJSON 数据 加 载 并 存储 在 nyc-boroughs.geojson 文 
件 中 。scala.io 包 中 的 Source 类 可 以 帮助 我 们 轻松 把 文本 文件 或 URL 中 的 数据 作为 一 个 
String 读 取 到 客户 端 中 : 





val geojson = scala.io.Source. 
fromFile("nyc-boroughs.geojson"). 
mkString 





现在 需要 用 到 本 章 前 面 讨 论 过 的 GeoJSON 解析 工具 ， 通 过 在 Spark shell 中 使 用 Spray 和 
Esri， 就 可 以 将 geojson 解析 为 FeatureCollection case 类 : 











import com.cloudera.datascience.geotime._ 
import GeoJsonprotocol._ 
import spray.json._ 


val features = geojson.parseJson.convertTo[FeatureCollection] 





我 们 建立 一 个 简单 的 地 点 来 测试 Esri1 Geometry API 的 功能 ， 并 验证 该 API 能 正确 找 出 指定 
坐标 的 所 属 行政 区 : 








import com.esri.core.geometry.Point 
val p = new Point(-73.994499, 40.75066) 
val borough = features.find(f => f.geometry.contains(p)) 





在 使 用 出 租车 乘 车 数据 上 的 features 之 前 ， 要 思 芳 一 下 怎样 组 织 地 理 空 间 数据 最 有 效 。 一 
个 方法 是 研究 专门 为 地 理 空 间 查询 而 优化 的 数据 结构 ， 比 如 四 又 树 ， 然 后 编写 自己 的 实现 
代码 。 但 我 们 先 看 一 下 是 否 能 想 出 一 个 快速 的 启发 式 算法 以 省 掉 这 部 分 工作 。 




















find 方法 将 遍历 FeatureCollection 直到 找到 一 个 图 形 包含 给 定 经 纬度 Point 的 特征 为 止 。 
大 部 分 打车 记录 的 上 车 点 和 下 车 点 都 在 曼哈顿 地 区 ， 因 此 如 果 代 表 曼 哈 顿 的 地 理 空间 特 
征 在 集合 中 早点 出 现 ， 大 部 分 的 find 方法 调用 将 可 以 较 快 地 返回 。 我 们 可 以 把 每 个 特征 
的 boroughCcode 属性 作为 排序 的 键 ，1 代表 曼哈顿 ，5 代表 史 坦 顿 岛 。 对 每 个 行政 区 特征 内 
部 ， 我 们 希望 最 大 的 多 边 形 相关 的 特征 排 在 较 小 的 多 边 形 之 前 ， 因 为 打车 时 大 部 分 起 点 或 
终点 会 落 在 每 个 行政 区 中 “ 较 大 ”的 地 区 。 然 后 根据 新 政 区 代码 和 每 个 特征 的 几何 图 形 的 
area2D() 大 小 来 对 特征 进行 排序 应 该 是 个 不 错 的 策略 : 


















































val areaSortedFeatures = features.sortBy(f => { 
val borough = f("boroughCode").convertTo[Int] 
(borough, -f.geometry.area2D()) 

}) 
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注意 这 里 是 根据 area2D() 取 负 值 之 后 排序 的 ， 因 为 我 们 想 让 最 大 的 多 边 形 排 在 最 前 面 ， 而 
Scala 默认 是 从 小 到 大 排序 。 


现在 可 以 将 areasortedFeatures 序列 中 排 好 序 的 特征 广播 到 集群 上 ， 然 后 写 一 个 函数 ， 利 
用 这 些 特征 来 判断 下 车 点 落 在 5 个 行政 区 的 哪 一 个 中 。 





val bFeatures = sc.broadcast(areaSortedFeatures) 


val bLookup = (x: Double, y: Double) => { 
val feature: Option[Feature] = bFeatures.value.find(f => { 
f.geometry.contains(new Point(x, y)) 


}) 

feature.map(f => { 
f("borough").convertTo[String] 

}).getOrELse("NA") 


val boroughUDF = udf(bLookup) 


我 们 可 以 在 taxiclean RDD 中 的 打车 记录 上 应 用 boroughuDF， 创 建 一 个 按 行 政 区 统计 的 直 
方 图 。 











taxiClean. 

groupBy(boroughUDF($"dropoffX", $"dropoffY")). 

count(). 

show() 
+----------------------- +-------- 十 
|UDF(dropoffX，dropoffY)| count| 
+----------------------- +-------- 十 
| Queens| 672192| 
| NA| 7942421| 
| Brooklyn| 715252| 
| Staten IsLand| 3338| 
| Manhattan|12979047 | 
| Bronx| 67434| 
+----------------------- +-------- 十 


像 我 们 预期 的 那样 ， 绝 大 多 数 打车 记录 的 终点 在 曼哈顿 地 区 ， 在 史 坦 顿 名 的 相对 较 少 。 终 
点 落 在 5 个 行政 区 之 外 的 乘 车 记录 数 有 点 让 人 吃惊 ， 而 NA 记录 的 数量 比 终点 在 布朗 克 斯 
区 的 记录 数 要 多 得 多 。 现 在 我 们 从 数据 中 取出 几 条 这 种 记录 








taxiClean. 
where(boroughUDF($"dropoffX", $"dropoffY") === "NA"). 
show() 


打印 出 这 些 记录 ， 会 发 现 它 们 大 部 分 的 起 点 和 终点 都 落 在 点 (0.0，9.0) 上 ， 表 明 这 些 记 
录 的 起 点 和 终点 数据 缺失 。 由 于 这 些 数据 对 我 们 的 分 析 帮 助 不 大 ， 应 该 把 这 种 例外 情况 过 
谍 掉 : 
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val taxiDone = taxiClean.where( 
"dropoffX != 0 and dropoffY != 0 and pickupX != 0 and pickupY != 0" 
) .cache() 








现在 重新 在 taxiDone RDD 上 运行 分 析 ， 得 到 如 下 结果 : 


taxiDone. 

groupBy(boroughUDF($"dropoffX", $"dropoffY")). 

count(). 

show() 
+----------------------- +-------- 十 
|UDF(dropoffX，dropoffY)| count| 
+----------------------- +-------- 十 
| Queens| 670912| 
| NA| 62778| 
| Brooklyn| 714659| 
| Staten IsLand| 3333| 
| Manhattan|12971314| 
| Bronx| 67333| 
+----------------------- +-------- 十 


过 着 掉 起 点 或 终点 为 零 的 记录 后 ，5 个 行政 区 的 输出 记录 只 是 减少 了 一 些 ， 但 NA 对 应 的 记 
录 大 部 分 被 去 掉 了 ， 剩 下 的 那些 终点 落 在 郊区 的 记录 条 数 现在 看 起 来 比较 合理 了 。 


8.5 基于 Spark 的 会 话 分 析 


前 面 提 到 的 一 个 目标 是 要 研究 出 租车 乘客 下 车 区 域 与 出 租车 等 待 下 一 单 生意 的 等 待 时 间 之 
间 的 关系 。 现 在 taxiDone 数据 集 包 含 了 每 个 出 租车 司机 的 所 有 载 客 数据 ， 但 这 些 记录 分 布 
在 不 同 的 分 区 中 。 要 计算 一 次 载 客 结束 到 下 次 载 客 开始 的 时 间 间 隔 ， 需 要 把 一 个 班次 中 的 
所 有 载 客 记录 按 一 个 司机 一 条 记录 进行 汇总 ， 然 后 把 该 班次 中 的 载 客 记录 按时 间 排 序 。 排 
序 让 我 们 可 以 比较 一 次 载 客 记 录 的 下 车 时 间 和 下 一 次 载 客 的 上 车 时 间 。 这 种 对 单个 实体 在 
不 同时 间 的 一 系列 事件 的 分 析 称 为 会 话 分 析 (sessionization) ， 它 经 常用 于 对 Web 日 志 做 
网 站 用 户 行为 分 析 。 


会 话 分 析 是 发 掘 数据 价值 和 开发 数据 产品 的 一 种 非常 强大 的 技术 ， 可 以 帮助 人 们 更 好 地 进 
行 决策 。 比 如 谷歌 的 自动 拼写 纠正 引擎 就 是 基于 用 户 活 动 会 话 构 建 的 。 谷 歌 将 每 天 在 其 网 
站 上 发 生 的 每 个 事件 (搜索 、 点 击 、 地 图 访问 等 ) 用 日 志 记 录 下 来 ， 并 在 这 些 记 录 上 构建 
会 话 。 为 了 找 出 可 能 的 拼写 纠正 项 ， 谷 歌 对 这 些 会 话 进行 处 理 并 找 出 如 下 描述 的 情形 : 用 
户 输入 查询 却 没 有 做 任何 点 击 ， 几 秒 钟 以 后 该 用 户 又 输入 一 个 稍微 不 同 的 查询 ， 然 后 点 击 
查询 结果 ， 然 后 就 离开 谷歌 了 。 找 到 上 述 情形 之 后 ， 谷 歌 计算 每 两 个 这 样 的 查询 的 模式 出 
现 的 次 数 ， 如 果 次 数 足 够 频繁 (比如 如 果 我 们 发 现 每 次 输入 查询 “untied stats” 几 秒 后 输 
入 查询 “united states”) ， 那 么 就 可 以 假设 第 二 个 查询 是 第 一 个 查询 的 拼写 纠正 项 。 













































































这 个 分 析 利用 日 志 中 展现 出 的 人 类 行为 模式 来 构建 拼写 纠正 引擎 ， 这 个 引擎 比 任何 基于 字 
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典 的 引擎 都 要 强大 得 多 。 该 引擎 可 以 用 于 任何 语言 的 拼写 检查 ， 并 且 可 以 用 于 纠正 那些 没 
有 在 任何 字典 中 出 现 的 词 (比如 某 个 创业 公司 的 名 字 )， 其 至 可 以 用 于 纠正 类 似 “untied 
stats” 这 样 两 个 单词 拼写 错误 的 查询 。 谷 歌 给 出 推荐 搜索 项 和 相关 搜索 项 时 也 使 用 了 类 似 
的 技术 ， 并 且 将 这 个 技术 用 于 确定 哪些 查询 应 该 返回 一 个 OneBox 结果 。OneBox 类 型 的 
搜索 结果 直接 显示 在 查询 页 面 上 ， 这 样 用 户 就 不 需要 继续 点 击 进入 不 同 页 面 。OneBox 已 
经 应 用 到 谷歌 天 气 、 体 育 赛 事 得 分 、 地 址 和 许多 其 他 类 型 的 查询 中 。 






























































现在 每 个 实体 发 生 的 所 有 事件 是 散布 在 RDD 的 各 个 分 区 中 的 ， 因 此 我 们 需要 按时 间 顺 序 
将 相关 时 间 放 在 一 起 。 下 一 市 将 演示 如 何 使 用 Spark 2.0 中 引入 的 高 级 分 析 功 能 来 高 效 地 构 
造 和 分 析 会 话 。 





0 


构建 会 话 : 基于 Spark 的 二 级 排序 

在 Spark 中 创建 会 话 ， 最 简单 的 方法 就 是 根据 标识 符 做 groupBy， 然 后 根据 时 间 惟 标识 符 
对 打 乱 次 序 后 的 事件 数据 排序 。 如 果 每 个 实体 只 有 少数 事件 ， 这 种 方法 还 是 比较 行 得 通 
的 。 然 而 ， 这 个 方法 的 扩展 能 力 十 分 有 限 ， 因 为 它 需 要 将 每 个 实体 的 所 有 事件 同时 都 放 入 
内 存 ， 因 此 随 着 每 个 实体 的 事件 数量 越 来 越 大 ， 所 占用 的 内 存 将 会 越 来 越 大 。 我 们 需要 一 
种 构建 会 话 的 方法 ， 它 不 需要 在 排序 时 将 一 个 实体 的 所 有 事件 同时 放 入 内 存 。 




















在 MapReduce 中 ， 可 以 通过 二 级 排序 (secondary sort) 来 构建 会 话 ， 做 法 是 创建 一 个 
由 标识 符 和 时 间 惟 组 成 的 组 合 键 ， 根 据 该 组 合 键 对 所 有 记录 排序 ， 然 后 用 一 个 定制 的 
分 区 器 (partitioner) 和 分 组 国 数 保证 相同 标识 符 对 应 的 所 有 记录 都 在 同一 个 结果 分 区 
中 。 幸 运 的 是 ，Spark 也 支持 这 种 排序 模式 ， 为 此 我 们 可 以 使 用 Spark 的 repartition 和 
sortWtthinPartitions 转换 。 在 Spark 2.0 中 ， 对 一 个 数据 集 进行 会 话 处 理 , 只 需 3 行 代码 : 























val _ sessions = taxiDone. 
repartition($"license"). 
sortWithinpartitions($"license", $"pickupTime") 





首先 ， 使 用 repartition 方法 ， 确 保 Trip 记录 中 所 有 License 列 值 相等 的 记录 被 分 配 在 同 
一 个 分 区 中 。 然 后 ， 在 每 个 分 区 中 ， 按 照 License 的 值 对 记录 进行 排序 (因此 同一 个 司机 
的 所 有 行程 都 在 一 起 ) ， 再 通过 pickupTime 进行 排序 ， 完 成 后 每 个 分 区 中 的 行程 都 是 排 好 
序 的 。 现 在 ， 当 我 们 使 用 像 mapPartitions 这 样 的 方法 处 理 行程 记录 时 ， 可 以 肯定 ， 这 些 
行程 是 以 会 话 分 析 的 最 佳 方式 排序 的 。 由 于 这 个 操作 会 触发 shuffle 和 一 点 计算 ， 而 且 需 要 
多 次 使 用 这 个 结果 ， 我 们 应 该 缓存 它们 : 












































sessions.cache() 
执行 会 话 分 析 管 道 是 一 个 代价 很 高 的 操作 ， 并 且 对 数据 建立 会 话 之 后 的 结果 往往 对 我 们 可 
能 要 执行 的 多 种 不 同 分 析 都 非常 有 用 。 如 果 这 份 数据 在 后 续 的 分 析 中 还 要 继续 使 用 ,或 者 
其 他 数据 科学 家 也 要 用 到 这 份 数据 ， 那 么 可 以 对 大 规模 数据 进行 一 次 性 的 会 话 分 析 处 理 ， 
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然后 把 结果 写 入 到 HDFS 上 ， 以 便 用 于 回答 一 些 不 同 的 问题 。 这 样 一 次 性 会 话 分 析 的 昂贵 
代价 就 可 以 分 摊 到 多 个 分 析 问 题 ， 也 不 失 为 一 种 不 错 的 策略 。 统 一 的 会 话 分 析 也 有 利于 在 
整个 数据 科学 小 组 范围 内 实施 统一 的 会 话 定义 标准 ， 使 用 统一 的 会 话 标准 则 有 助 于 对 结果 
进行 对 等 比较 。 





























现在 我 们 已 经 准备 就 绕 ， 可 以 开始 对 会 话 数据 进行 分 析 从 而 得 出 某 个 区 域 出 租车 司机 在 凶 
客 之 后 等 待 下 一 位 乘 车 上 车 的 平均 接 单 等 待 时 间 了 。 我 们 将 定义 一 个 boroughDuration 方 
法 ， 它 接受 两 个 Trip 实例 作为 参数 ， 计 算出 第 一 个 Trip 的 区 域 ， 以 及 第 一 个 Trip 的 下 车 
时 间 和 第 二 个 Trip 的 上 车 时 间 的 Duration， 代 码 如 下 : 




















def boroughDuration(t1: Trip, t2: Trip): (String, Long) = { 
val b = bLookup(t1.dropoffX，t1.dropoffY) 
val d = (t2.pickupTime - t1.dropoffTime) / 1000 
(b, d) 


我 们 要 将 这 个 新 国 数 应 用 在 所 有 会 话 数 据 集 的 连续 两 个 载 客 记录 上。 虽然 这 里 我 们 可 以 自 
己 写 一 个 for 循环 ， 但 也 可 以 用 Scala Collections API 提供 的 sliding 这 一 较为 函数 式 的 
方法 : 








val boroughDurations: DataFrame = 
sessions.mapPartitions(trips => { 
val iter: Iterator[Seq[Trip]] = trips.sliding(2) 
val viter = iter. 
filter(_.size == 2). 
filter(p => p(0).license == p(1).license) 
viter.map(p => boroughDuration(p(0), p(1))) 
}).toDF("borough", "seconds") 


在 sLiding 方法 的 结果 上 调用 fitter 保证 忽略 掉 只 有 一 次 载 客 记录 的 会 话 ， 或 者 在 
License 字段 上 具有 不 同 值 的 任意 成 对 的 载 客 记录 。 在 会 话 之 上 进行 mapPartitions 操作 
的 结果 是 一 个 由 键 一 值 对 borough/duration 组 成 的 DataFrame， 我 们 现在 可 以 检查 一 下 它 的 
内 容 。 首 先 应 该 验证 大 部 分 的 等 单 时 间 是 非 负 的 : 








boroughDurations. 
selectExpr("floor(seconds / 3600) as hours"). 
groupBy( "hours"). 


count(). 

sort("hours"). 

show() 
+----- +-------- + 
|hours| count| 
+----- +-------- 十 
| -3 21 
| -2| 16| 
| 1| 4253| 
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0|13359033| 


| 

| 1| 347634| 
| 2| 76286| 
| 3| 24812| 
| 4| 160026| 
| 5| 4789| 


只 有 少数 儿 条 记录 的 等 单 时 间 为 负 ， 我 们 进一步 仔细 检查 这 些 记录 ， 也 没 发 现 产 生 这 些 错 
误 数 据 的 规律 。 如 果 从 输入 数据 集中 排除 这 些 持续 时 间 为 负 的 记录 ， 查 看 各 区 域 上 车 时 间 
的 平均 值 和 标准 差 ， 可 以 看 到 : 

















boroughDurations. 
where("seconds > 0 AND seconds < 60*60*4"). 
groupBy("borough"). 
agg(avg("seconds"), stddev("seconds")). 
show() 


+---- +------------------ +-------------------- 十 
| borough| avg(seconds)|stddev_samp(seconds)| 
+---- +------------------ +-------------------- 十 
| Queens|2380.6603554494727| 2206.6572799118035 | 
| NA| 2006.53571169866| 1997.0891370324784| 
| Brooklyn| 1365.394576250576| 1612.9921698951398| 
|Staten IsLand| 2723.5625| 2395.7745475546385| 
| Manhattan| 631.8473780726746| 1042.919915477234| 
| Bronx|1975.9209786770646 | 1704.006452085683| 
+--- +------------------ +-------------------- 十 


数据 显示 曼哈顿 地 区 的 等 单 时 间 最 短 ， 为 10 分 钟 左 右 ， 这 在 我 们 的 意料 之 中 。 布 鲁 克 林 
地 区 的 等 单 时 间 超过 曼哈顿 地 区 的 两 倍 ， 乘 客 下 车 点 在 史 丹 顿 岛 地 区 的 次 数 相对 较 少 ， 司 
机 的 平均 等 单 时 间 约 为 45 分 钟 。 


正如 数据 所 示 ， 根 据 乘客 目的 地 的 不 同 歧视 性 地 对 待 乘客 对 出 租车 司机 有 很 大 的 经 济 利益 
激励 : 如 果 乘 客 在 史 丹 顿 龟 下 车 ， 司 机 就 要 空闲 很 长 一 段 时间 。 纽 约 市 出 租车 及 礼 车 协会 
多 年 来 花 了 很 大 精力 来 整治 这 种 歧视 性 的 做 法 ， 由 于 乘客 目的 地 的 原因 而 拒载 的 行为 一 经 
发 现 就 要 面临 罚款 。 对 乘客 目的 地 很 近 的 打车 数据 进行 分 析 应 该 是 比较 有 意思 的 ， 如 果 乘 
客 的 目的 地 很 近 ， 司 机 和 乘客 可 能 会 发 生 摩擦 。 

















8.6 ”小结 


设想 一 下 ， 我 们 可 以 把 本 章 所 用 到 的 技术 用 于 开发 一 个 应 用 ， 这 个 应 用 可 以 根据 当前 的 交 
通 模式 和 数据 中 最 佳 候 客 地 点 的 历史 记录 来 向 出 租车 司机 建议 最 佳 的 候 客 地 点 。 还 可 以 从 
乘客 的 角度 进行 分 析 : 给 定 当 前 时 间 、 地 点 和 天 气 信息 ， 我 站 在 街头 在 5 分 钟 之 内 招呼 到 
出 租车 的 概率 有 多 大 ? 这 类 信息 可 以 加 入 谷歌 地 图 这 类 应 用 中 ， 以 帮助 旅客 确定 何 时 出 发 
及 采用 何 种 交通 工具 。 











利用 Esri API 工具 ， 可 以 对 来 自 JVM 系 语 言 的 地 理 空 间 数据 进行 交互 式 分 析 。 这 样 的 工 
具有 好 几 个 ，Esri API 是 其 中 之 一 ， 另 一 个 是 GeoTrellis。GeoTrellis 是 一 个 用 Scala 写 的 
地 理 空间 分 析 工 具 ， 它 的 设计 目标 之 一 就 是 易于 在 Spark 中 使 用 。 第 三 个 是 基于 Java 的 
GIS 工具 GeoTools。 
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基于 蒙特 卡 罗 模拟 的 金融 风险 评估 





作者 : 桑 迪 .里 扎 


如 果 你 想 了 解 地 质 学 ， 就 研究 地 震 。 如 果 你 想 了 解 经 济 学 ， 就 研究 经 济 萧条 。 


Ben Bernanke 





风险 价值 “Value at Risk，VaR) 是 一 个 金融 统计 概念 ， 它 度量 在 一 定 条 件 下 的 期 望 损失 
大 小 。 自 1987 年 美国 股灾 之 后 ，VaR 迅速 流行 并 被 金融 服务 机 构 广 泛 使 用 ， 在 金融 服务 
机 构 的 管理 中 发 挥 了 举足轻重 的 作用 ， 比 如 可 以 用 它 计 算 金融 机 构 申请 对 应 的 信用 等 级 所 
需要 持 有 的 现金 量 。 除 此 之 外 ，VaR 还 可 用 于 帮助 人 们 更 好 地 理解 大 量 投资 组 合 的 风险 特 
征 ， 也 可 用 于 在 交易 执行 之 前 提供 快速 决策 依据 。 









































评估 VaR 的 方法 极为 复杂 ， 其 中 许多 涉及 随机 条 件 下 的 市 场 模拟 ， 这 需要 进行 大 量 计算 。 
这 些 方法 背后 采用 了 一 种 称 为 蒙特 卡 罗 模 拟 (Monte Carlo simulation) 的 技术 。 蒙 特 卡 罗 
模拟 中 给 出 数 千 个 甚至 数 百 万 个 随机 的 市 场 状 况 ， 并 观察 这 些 状况 对 投资 组 合 的 影响 。 由 
于 Spark 本 身 具 有 高 并 行 性 ， 它 非常 适合 进行 蒙特 卡 罗 模 拟 。Spark 可 以 利用 数 千 个 CPU 
核 来 运行 随机 试验 并 汇总 结果 。 作 为 通用 数据 转换 引擎 ，Spark 也 擅长 执行 模拟 前 后 的 预 
处 理 和 后 处 理 任务 。 我 们 可 以 用 它 把 原始 的 金融 数据 转换 成 执行 模拟 所 需 的 模型 参数 ， 同 
样 可 以 用 它 对 模拟 结果 进行 即席 分 析 (ad-hoc analysis)。 相 对 于 传统 的 HPC 环境 而 言 ， 
Spark 简单 的 编程 模型 使 研发 周期 大 大 缩短 。 












































现在 我 们 给 出 “期 望 损失 ”的 规范 定义 。VaR 是 对 投资 风险 的 一 个 简单 度量 ， 它 合理 地 估 
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计 了 一 个 投资 组 合 在 未 来 一 段 时 间 内 的 最 大 可 能 损失 。 统 计量 VaR 由 3 个 参数 来 确定 : 投 
资 组 合 、 时 间 跨 度 、p 值 。 若 p 值 为 0.05， 茶 投资 组 合 未 来 两 周 的 VaR 值 为 100 万 美元 ， 
则 表示 该 投资 组 合 在 两 周 后 损失 超过 100 万 美元 的 概率 为 5%。 


本 章 还 会 介绍 另 一 个 相关 的 统计 量 ， 我 们 称 之 为 条 件 风 险 价 值 (Conditional Value at Risk， 
CVaR)， 有 时 也 叫 作 期 望 损失 (expected shortfall)。CVaR 由 巴塞 尔 银行 业 监管 委员 会 提 
出 ， 它 是 一 个 比 VaR 更 好 的 风险 度量 指标 。 统 计量 CVaR 的 3 个 参数 和 VaR 相同 ， 但 
CVaR 表示 的 是 期 望 损失 而 不 是 截止 值 (cutoff value)。p 值 为 0.05 时 ， 某 投资 组 合 未 来 两 
周 的 CVaR 值 为 500 万 美元 ， 则 表示 该 投资 组 合 在 最 坏 的 5% 情况 下 平均 损失 为 500 万 美 
元 。 











为 了 对 VaR 进行 建 模 ， 我 们 先 介绍 一 些 新 的 概念 、 方 法 以 及 工具 包 。 有 具体 来 说 ， 我 们 将 
介绍 核 密度 估计 、 如 何 用 breeze-viz 工具 包 进 行 绘图 、 多 元 正 态 分 布 (multivariate normal 
distribution) 采样 和 Apache Commons Math 工具 包 的 统计 函数 。 


9.1 术语 

本 章 将 涉及 儿 个 金融 领域 的 术语 ， 现 在 给 出 它们 的 简单 定义 。 

。 金融 工具 
可 交易 的 资产 ， 比 如 债券 、 贷 款 、 期 权 或 股票 。 金 融 工 具 在 任意 时 刻 都 可 以 用 一 个 值 来 
表示 ， 也 就 是 资产 的 卖 出 价 。 

















。 投资 组 合 


金融 机 构 持 有 的 金融 工具 的 组 合 。 





。 回报 

一 段 时 间 内 金融 工具 或 投资 组 合 的 价值 变化 。 
。 损失 

负 的 回报 。 
。 指数 


一 个 假设 的 金融 工具 组 合 。 比 如 纳 斯 达 克 综 合 指数 包含 了 美国 和 世界 上 其 他 国家 主要 公 
司 的 约 3000 只 股票 和 金融 工具 。 





。 市 场 因 素 
给 定时 间 点 的 宏观 金融 环境 指标 ， 比 如 美国 的 国内 生产 总 值 (GDP) 指标 就 是 一 个 市 场 
因素 ， 又 如 美元 对 欧元 的 汇率 也 是 一 个 市 场 因素 。 我 们 也 常 把 市 场 因素 简称 为 因素 。 
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9.2 VaR 计 算 方 法 


目前 为 止 ， 我 们 对 VaR 的 定义 都 比较 宽泛 。 估 计 该 统计 量 需 要 对 投资 组 合 的 工作 原理 及 其 
回报 的 概率 分 布 进行 建 模 。 金 融 机 构 采 用 了 许多 不 同 的 方法 计算 VaR， 然 而 这 些 计算 方法 
都 来 源 于 几 种 通用 的 方法 。 


9.2.1 方差 - 协 方 差 法 
方差 - 协 方差 (variance-covariance) 是 最 简单 的 方法 ， 其 计算 复杂 度 也 最 小 。 该 模型 假设 
每 个 金融 工具 的 回报 服从 正 态 分 布 ， 这 样 就 能 估算 出 VaR 值 。 
































9.2.2 历史 模拟 法 


历史 模拟 法 (historical simulation) 直接 使 用 历史 数据 的 分 布 推断 风险 值 ， 而 不 依赖 概要 统 
计量 。 比 如 ， 为 确定 一 个 投资 组 合 在 置信 水 平 为 95% 时 的 VaR， 历 史 数据 模拟 方法 会 参 
考 该 资产 过 去 100 天 的 市 场 表 现 并 以 其 中 表现 排 倒数 第 五 的 那 一 天 的 回报 作为 对 VaR 的 估 
计 。 该 方法 的 一 个 缺点 是 历史 数据 是 有 限 的 ， 不 能 包括 那些 没 发 生 的 假设 情况 。 我 们 所 用 
的 投资 组 合 工具 的 历史 数据 可 能 没有 包含 崩盘 的 情况 ， 但 我 们 其 实 也 希望 在 这 些 情况 下 能 
够 对 投资 组 合 的 表现 进行 建 模 。 已 有 的 技术 可 以 使 历史 数据 模拟 方法 对 这 些 问题 具有 稳健 
性 ， 比 如 在 数据 中 引入 “市 场 冲 击 ”， 这 里 我 们 将 不 做 介绍 。 


9.2.3 ”蒙特 卡 罗 模 拟 法 

本 章 接 下 来 的 部 分 将 重点 介绍 蒙特 卡 罗 模 拟 法 。 该 方法 通过 模拟 随机 条 件 下 的 投资 组 合 ， 
来 减少 前 面 介绍 的 几 种 方法 中 的 假设 因素 所 带 来 的 影响 。 当 我 们 不 能 得 到 概率 分 布 的 解析 
解 时 ， 通 当 可 以 评估 其 概率 密度 函数 (probability density function，PDF)， 方 法 是 对 服 
从 该 概率 分 布 的 简单 随机 变量 进行 重复 采样 ， 并 对 采样 结果 进行 汇总 统计 。 更 一 般 地 ， 该 
方法 : 


。 定义 市 场 条 件 与 每 个 金融 工具 的 回报 之 间 的 关系 ， 该 关系 表现 为 拟 合 历史 数据 的 模型 ， 

。 为 那些 容易 采样 的 市 场 条 件 定义 分 布 ， 这 些 分 布 也 拟 合 历史 数据 ， 

。 在 随机 市 场 条件 下 进行 试验 ; 

。 计算 每 次 试验 的 投资 组 合 总 体 损失 ， 用 这 些 损失 定义 损失 的 经 验 分 布 ， 即 如 果 运 行 100 
次 试验 来 估算 置信 水 平 为 95% 时 的 VaR， 我 们 会 选择 试验 中 第 五 大 的 损失 值 ， 若 要 计 
算 置 信 水 平 为 95% 时 的 CVaR， 我们 需要 计算 最 坏 的 5 次 试验 的 平均 损失 。 

当然 ， 蒙 特 卡 罗 方 法 也 不 是 完美 的 。 它 依赖 模型 来 产生 试验 条 件 和 推断 金融 工具 的 表现 ， 

因此 这 些 模 型 必须 做 出 简化 的 假设 。 如 果 这 些 假设 不 符合 实际 情况 ， 那 么 最 终 得 到 的 概率 

分 布 也 不 会 符合 实际 情况 。 
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9.3 我们 的 模型 


蒙特 卡 罗 风 险 模型 通常 把 每 个 金融 工具 的 回报 分 解 为 一 组 市 场 因素 的 组 合 。 常 用 的 市 场 因 
素 包 括 标 普 500 指数 、 美 国 GDP 和 货币 汇率 等 。 接 着 我 们 需要 一 个 模型 根据 这 些 市 场 条 
件 来 预测 每 个 金融 工具 的 回报 。 我 们 将 在 模拟 中 使 用 简单 的 线性 模型 。 根 据 之 前 对 回报 的 
定义 ， 一 个 因素 的 回报 为 给 定时 间 段 内 市 场 因 素 值 的 变化 。 举 个 例子 ， 如 果 标 普 500 指数 
在 一 段 时 间 内 从 2000 点 涨 到 2100 点 ， 那 么 回报 为 100 点 。 对 这 些 因素 的 回报 进行 简单 转 
换 可 以 得 到 一 组 特征 。 也 就 是 说 ， 给 定 试验 1 的 市 场 因 素 向 量 m,， 通 过 某 个 转换 函数 p 得 
到 特征 向 量 f,f 向 量 的 长 度 可 能 和 向 量 m, 的 长 度 不 一 样 。 



































f= 0m,) 
为 每 个 金融 工具 训练 一 个 模型 ， 该 模型 给 每 个 特征 赋予 一 个 权重 。 下 面 给 出 了 回报 的 计算 
公式 ， 其 中 尺 ,为 试验 t 中 工具 i 的 回报 ,6c 为 金融 工具 i 的 截 距 项 (intercept term) ，wy 为 
特征 j 在 金融 工具 i 上 的 回归 权重 ,为 特征 j 在 试验 t 中 产生 的 随机 值 : 
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上 述 公 式 表 示 ， 每 个 金融 工具 的 回报 等 于 所 有 市 场 因素 特征 的 回报 与 金融 工具 的 权重 的 乘 
积 之 和 。 我 们 可 以 用 历史 数据 来 拟 合 每 个 金融 工具 的 线 型 模型 (也 称 为 线性 回归 )。 如 果 
VaR 的 时 间 跨 度 为 两 周 ， 回 归 问 题 把 每 个 间隔 两 周 的 时 间 点 当 作 具有 标号 的 样本 点 。 


需要 指出 的 是 ， 我 们 也 可 选用 更 复杂 的 模型 。 比 如 可 以 不 用 线性 模型 ， 而 是 用 回归 树 技术 
或 在 模型 中 显 式 地 加 入 特定 领域 的 知识 。 


有 了 从 市 场 因 素 中 计算 金融 工具 损失 的 模型 之 后 ， 还 需要 一 个 模拟 市 场 因 素 的 方法 。 我 们 简 
单 假设 市 场 因素 回报 服从 正 态 分 布 。 为 了 考虑 市 场 因素 之 间 的 相关 性 (比如 纳 斯 达 克 指 数 下 
跌 时 道琼斯 指数 也 很 可 能 跟着 下 跌 ) ， 我 们 使 用 多 元 正 态 分 布 ， 甚 协 方差 矩阵 是 非 对 角 阵 : 









































m, ~ MN (0 过) 
这 里 4 代表 因素 回报 经 验 平 均 问 量 , 克 代 表 市 场 因 素 回 报 经 验 的 协 方差 矩阵 。 


与 前 面 讨 论 的 一 样 ， 在 模拟 市 场 因素 时 ， 我 们 也 可 以 选择 更 加 复杂 的 方法 。 可 以 假定 每 个 
市 场 因素 服 从 不 同 的 分 布 类 型 ， 比 如 采用 尾部 更 厚 的 分 布 。 


9.4 获取 数据 
要 找到 大 量 格式 规整 的 历史 价格 数据 并 非 易 事 ， 但 我 们 可 以 在 Yahoo! 上 下 载 到 大 量 CSV 
格式 的 股票 数据 。 下 面 的 脚本 使 用 一 系列 REST 调用 来 下 载 纳 斯 达 克 指 数 里 所 有 股票 的 历 
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史 数 据 ， 并 将 其 存放 在 stocks/ 目录 下 。 该 脚本 在 本 书 GitHub 资料 库 的 risk/data 目录 下 : 











$ ./download-all-symbols.sh 


我 们 也 需要 这 份 历史 数据 的 风险 因素 ， 包 括 标 普 500 和 纳 斯 达 克 指 数值 ， 还 有 5 年 期 以 及 
30 年 期 国债 价格 数据 。 标 普 500 和 纳 斯 达 克 指 数 数据 同样 可 以 从 Yahoo! 下 载 : 





$ mkdir factors/ 

$ ./download-symbol.sh ^GSPC factors 
$ ./download-symbol.sh ^IXIC factors 
$ ./download-symbol.sh ^TYX factors 
$ ./download-symbol.sh ^FVX factors 


9.5 ”数据 预 处 理 
从 Yahoo! 获取 的 GOOGL 股票 数据 的 前 几 行 如 下 : 


Date ,Open,High,Low,Close,Volume,Adj Close 

2014-10-24,554.98,555.00,545.16,548.90,2175400,548.90 
2014-10-23,548.28,557.40,545.50,553.65,2151300,553.65 
2014-10-22,541.05,550.76,540.23,542.69,2973700,542.69 
2014-10-21,537.27,538.77,530.20,538.03,2459500,538.03 
2014-10-20,520.45,533.16,519.14,532.38,2748200,532.38 


接 下 来 启动 Spark shell。 在 本 章 中 会 使 用 几 个 库 来 简化 工作 。GitHub 仓库 中 有 一 个 Maven 
项 目 ， 用 来 将 所 有 这 些 依赖 关系 打包 成 一 个 JAR 文件 : 


$ cd ch09-risk/ 

$ mvn package 

$ cd data/ 

$ spark-shell --jars ../target/ch09-risk-2.0.0-jar-with-dependencies.jar 











对 每 个 数据 源 的 每 个 金融 工具 和 市 场 因 素 ， 我们 可 以 用 (date，closing price) 元 组 列表 
来 描述 。java.time 库 提供 表示 和 操作 日 期 的 实用 功能 。 我 们 可 以 日 期 表示 为 LocalDate 对 
象 ， 还 可 以 使 用 DateTimeFormatter 来 解析 Yahoo! 日 期 格式 : 

















import java.time.LocalDate 
import java.time.format.DateTimeFormatter 


val format = DateTimeFormatter .ofPattern("yyyy-MM-dd") 
LocalDate.parse("2014-10-24") 
res0: java.time.LocalDate = 2014-10-24 

















3000 个 金融 工具 加 4 个 市 场 因素 的 历史 数据 量 较 小 ， 可 以 在 本 地 进行 读 取 和 处 理 。 即 使 对 于 
涉及 几 十 万 个 金融 工具 和 几 千 个 市 场 因素 的 较 大 型 的 模拟 来 说 也 是 如 此 。 然 而 ， 当 模拟 真正 
运行 起 来 时 ， 每 个 工具 都 需要 进行 大 量 的 计算 ， 这 时 我 们 就 需要 Spark 这 类 分 布 式 系统 了 。 


现在 读 取 全 部 的 Yahoo! 历史 数据 ， 代 码 如 下 : 
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import java.io.File 


def readYahooHistory(file: File): Array[(LocalDate, Double)] = { 
val formatter = DateTimeFormatter .ofPattern("yyyy-MM-dd") 
val Lines = scala.io.Source.fromFile(file).getLines().toSeq 
lines.tail.map { line => 
val cols = line.split(',' 
val date = LocalDate.parse(cols(0), formatter) 
val value = cols(1).toDouble 
(date, value) 
}.reverse.toArray 


} 
注意 Lines.tail 用 于 去 掉 标 题 行 。 现 在 我 们 加 载 所 有 数据 并 过 渡 掉 历史 数据 不 足 5 年 的 金 


融 工 具 ， 代 码 如 下 : 














val start = LocalDate.of(2009, 10, 23) 
val end = LocalDate.of(2014, 10, 23) 


val stocksDir = new File("stocks/") 
val files = stocksDir.listFiles() 
val allStocks = files.iterator.flatMap { file =>> © 
try { 
Some(readYahooHistory(file)) 
} catch { 
Case e: Exception => None 
} 
} 
val rawStocks = allStocks.filter(_.size >= 260 * 5 + 10) 


val factorsPrefix = "factors/" 

val rawFactors = Array( 
"AGSPC.csv", "^IXIC.csv", "^TYX.csv", "^FVX.csv'"). 
map(x => new File(factorsPrefix + x)). 
map(readYahooHistory) 


@ 这 里 使 用 友 代 器 来 对 文件 做 流 式 处 理 ， 不 用 一 次 性 把 全 部 内 容 加 载 到 内 存 。 








由 于 不 同 金融 工具 的 交易 日 期 可 能 不 相同 ， 或 者 由 于 其 他 原因 数据 中 有 些 值 缺失 ， 因 此 我 
门 有 必要 对 不 同 的 历史 数据 进行 规范 化 处 理 。 首 先 需 要 将 时 间 序 列 数据 统一 到 同一 个 时 间 
区 间 。 然 后 对 有 缺失 的 数据 ， 需 要 为 其 填充 数据 。 对 于 时 间 序 列 数据 中 缺失 开始 时 间 和 结 
束 时 间 的 情况 ， 我 们 用 附近 的 日 期 填充 即 可 ， 代 码 如 下 : 


















































def trimToRegion(history: Array[(LocalDate, Double)], 
start: LocalDate, end: LocalDate) 
: Array[(LocalDate, Double)] = { 
var trimmed = history.dropWhile(_._1.isBefore(start)). 
takeWhile(x => x._1.isBefore(end) || x._1.isEqual(end)) 
if (trimmed.head. 1 != start) { 
trimmed = Array((start, trimmed.head. 2)) ++ trimmed 


} 
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if (trimmed.last. 1 != end) { 
trimmed = trimmed ++ Array((end，trimmed.Last. 2)) 


} 


trimmed 


} 


对 于 一 个 时 间 序 列 的 数据 存在 缺失 值 的 情况 ， 我 们 使 用 该 工具 上 一 个 交易 日 的 收盘 价 来 代 
禁 。 因 为 Scala 集合 并 没有 提供 现成 的 方法 帮 有 我 们 完成 这 个 任务 ， 所 以 我 们 还 得 自己 写 。 
spark-ts 库 (https:/github.comy/sryza/spark-timeseries 斌 Il flint 库 (https://github.com/twosigma/flint) 
是 替代 方案 ， 它 们 也 有 许多 实用 的 时 间 序 列 处 理 函 数 。 




















import scala.collection.mutable.ArrayBuffer 


def fillInHistory(history: Array[(DateTime，DoubtLe)]， 
start: DateTime, end: DateTime): Array[(DateTime, Double)] = { 
var cur = history 
val filled = new ArrayBuffer[(DateTime, Double)]() 
Var CUrDate = start 
while (curDate < end) { 
if (cur.tail.nonEmpty && cur.tail.head. 1 == curDate) { 
cur = cur.tail 


} 
filled += ((curDate, cur.head. 2)) 


curDate += 1.days 
// 跳 过 周末 
if (curDate.dayOfWeek().get > 5) curDate += 2.days 


} 
filled.toArray 


} 





将 trimToRegion 和 fiLLInHistory 函数 应 用 在 数据 上 : 


val stocks = rawStocks. 
map(trimToRegion(_, start, end)). 
map(fillInHistory(_, start, end)) 


val factors = (factors1 ++ factors2) . 
map(trimToRegion(_, start, end)). 
map(fillInHistory(_, start, end)) 


请 记 住 ， 即 使 这 里 使 用 的 Scala API 与 Spark API 非常 相似 ， 这 些 操作 也 是 在 本 地 执行 的 
stocks 的 每 个 元 素 都 是 由 某 支 股票 在 不 同时 间 点 的 价格 组 成 的 数组 。factors 结果 和 
stocks 一 样 。 这 些 数 组 的 长 度 应 该 都 相等 ， 我 们 可 以 用 如 下 代码 进行 验证 





(stocks ++ factors).forall(_.size == stocks(0).size) 
res17: Boolean = true 





9.6 ”确定 市 场 因素 的 权重 


回顾 一 下 ，VaR 值 代表 一 个 给 定时 间 段 内 的 可 能 损失 大 小 。 我 们 关心 的 不 是 金融 工具 的 绝 
对 价格 ， 而 是 在 一 段 时 间 内 金融 工具 价格 的 变化 。 在 本 章 的 计算 中 ， 我 们 将 时 间 跨 度 设 为 
两 周 。 下 面 的 函数 利用 了 Scala 集合 的 stliding 方法 将 价格 的 时 间 序 列 转换 成 间隔 为 2 周 
的 价格 移动 交合 序列 。 注 意 ， 由 于 金融 数据 中 不 考虑 周末 ， 所 以 时 间 窗 口 为 10 而 不 是 14: 

















def twoWeekReturns(history: Array[(LocalDate, Double)]) 
: Array[Double] = { 
history.sliding(10). 
map { window => 
val next = window.last. 2 
val prev = window.head. 2 
(next - prev) / prev 
}.toArray 


val stocksReturns = stocks.map(twoWeekReturns).toArray.toSeq © 
val factorsReturns = factors.map(twoNeekReturns) 
@ 由 于 我 们 之 前 使 用 了 迭代 器 ，stocks 是 一 个 迭代 器 。.toArray.toSeq 遍历 stocks， 并 
将 内 存 中 的 元 素 收集 到 一 个 序列 中 。 


有 了 回报 的 历史 数据 ， 我 们 就 可 以 回 过 来 看 看 如 何 训练 模型 来 预测 金融 工具 回报 。 我 们 希 
望 有 一 个 模型 可 以 根据 两 周 内 市 场 因 素 的 回报 来 预测 每 个 金融 工具 在 相同 时 间 段 内 的 回 
报 。 为 了 简化 问题 ， 我 们 使 用 线性 回归 模型 。 




















金融 工具 的 回报 与 市 场 因素 之 间 可 能 是 非 线性 关系 ， 为 了 对 这 个 情况 进行 建 模 ， 我 们 可 以 
在 模型 中 加 入 一 些 附加 的 特征 。 对 市 场 因 素 回报 进行 非 线 性 变换 可 以 得 到 这 些 特征 。 这 里 
我 们 尝试 对 每 个 市 场 因素 增加 两 个 附加 特征 : 市 场 因素 的 平方 以 及 平方 根 。 由 于 应 变量 仍 
然 是 特征 的 线性 函数 ， 从 这 个 意义 上 讲 ， 我 们 的 模型 仍然 是 线性 模型 ， 只 不 过 有 些 特 征 正 
好 由 市 场 因素 的 非 线性 函数 确定 而 已 。 请 记 住 我 们 这 里 采用 的 这 种 特征 转换 只 是 为 了 说 明 
问题 ， 而 在 金融 建 模 实践 中 ， 进 行 预 测 时 采用 的 做 法 可 能 并 不 相同 。 





















































虽然 由 于 每 个 金融 工具 都 对 应 一 次 回归 ， 我 们 这 里 执行 了 许多 次 回归 ， 但 是 特征 的 数量 
和 每 次 回归 的 数据 量 是 其 实 是 很 小 的 。 因 此 ， 在 建立 线性 模型 的 过 程 中 我 们 没 必要 使 用 
Spark 进行 分 布 式 运算 ， 只 要 用 Apache Commons Math 工具 包 提 供 的 普通 最 小 二 乘 回 归 
功能 就 足够 了 。 虽 然 现在 我 们 的 市 场 因素 数据 是 由 历史 数据 组 成 的 Seq (每 个 Seq 都 是 由 
(DateTime， DoubtLe) 二 元 组 组 成 的 数组 ) ， 但 0LSMultipleLinearRegression 要 求 数 据 为 样 
本 点 数组 〈 对 我 们 的 示例 来 说 就 是 2 周 的 时 间 段 )， 所 以 我 们 需要 对 市 场 因素 矩阵 进行 变 
换 ， 代 码 如 下 : 
def factorMatrix(histories: Seq[Array[Double]]) 


: Array[Array[Double]] = { 
val mat = new Array[Array[Double]](histories.head.length) 
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for (i <- histories.head.indices) { 
mat(i) = histories.map(_(i)).toArray 

} 

mat 


} 


val factorMat = factorMatrix(factorsReturns) 


现在 我 们 可 以 处 理 附 加 的 特征 了 ， 代 码 如 下 : 


def featurize(factorReturns: Array[Double]): Array[DoubtLe] = 


val squaredReturns = factorReturns. 

map(x => math.signum(x) * x * x) 
val squareRootedReturns = factorReturns. 

map(x => math.signum(x) * math.sqrt(math.abs(x))) 
squaredReturns ++ squareRootedReturns ++ factorReturns 


J} 


val factorFeatures = factorMat.map(featurize) 


{ 


然后 我 们 可 以 拟 合 线性 模型 。 另 外 ， 为 了 找到 每 个 工具 的 模型 参数 ， 我 们 可 以 使 用 


OLSMultipleLinearRegression 的 estimateRegressionParameters 方法 : 


import org.apache.commons.math3.stat.regression.OLSMultipleLinearRegression 


def linearModel(instrument: Array[Double], 
factorMatrix: Array[Array[Double]]) 
: OLSMultipleLinearRegression = { 
val regression = new OLSMultipleLinearRegression() 
regression.newSampleData(instrument, factorMatrix) 
regression 


} 


val factorWeights = stocksReturns. 
map(linearModel(_, factorFeatures)). 
map(_.estimateRegressionparameters()). 
toArray 


现在 我 们 得 到 了 一 个 1867 x 8 的 矩阵 ， 甚 中 每 一 行 代表 一 个 金融 工具 的 模型 参数 集合 ( 





些 参数 可 能 是 系数 、 权 重 、 协 变量 、 回 归 因子 等 )。 








[ee 


为 了 节省 篇 幅 ， 我 们 省 略 了 分 析 过 程 ， 但 在 这 个 点 上 ， 对 于 一 个 实际 的 应 用 处 理 管 道 
(pipeline) ， 有 必要 了 解 模型 对 数据 的 拟 合 程度 。 因 为 数据 点 是 从 时 间 序 列 上 得 到 的 ， 特 别 
是 时 间 窗口 是 交 又 的 ， 所 以 这 些 样本 很 有 可 能 是 自 相关 的 (autocorrelated)。 这 就 是 说 ， 如 
果 采 用 像 R 之 类 的 度量 ， 我 们 很 可 能 对 模型 的 拟 合 程度 做 出 乐观 估计 。Breusch-Godfrey 
测试 (http://en.wikipedia.org/wiki/Breusch-Godfrey_test) 是 对 自 相 关 性 的 影响 进行 评估 昌 





























一 种 标准 测试 。 这 种 快速 评估 模型 的 方法 就 是 将 时 间 序 列 拆 分 成 两 个 集合 。 拆 分 时 要 注 





取出 的 点 处 于 中 间 位 置 ， 数 据点 要 足够 多 ， 要 保证 前 面 一 组 的 后 画 

















ji 的 点 与 后 四 
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/已 、 





一 组 的 前 








HH 





的 点 不 是 自 相关 的 。 然 后 在 这 个 集合 上 进行 模型 训练 ， 在 另 一 个 集合 上 检验 误差 。 
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9.7 
有 了 将 站 


采样 


场 因素 回报 映射 到 金融 工具 回报 的 模型 之 后 ， 接 下 来 可 以 讨论 怎样 生成 随机 回报 











因素 来 模拟 市 场 条 件 。 也 就 是 说 ， 我 们 需要 确定 因素 回报 向 量 的 一 个 概率 分 布 ， 并 从 该 
分 布 上 采样 。 数 据 实际 服从 什么 分 布 呢 ? 为 了 回答 此 类 问题 ， 有 必要 先 对 数据 进行 可 视 
化 。 连 续 概 率 分 布 的 可 视 化 可 以 采用 密度 曲线 ， 它 给 出 了 在 分 布 区 间 上 的 概率 密度 国 数 


(PDF) 。 























因为 我 们 不 知道 数据 服从 的 分 布 ， 所 以 并 没有 一 个 公式 可 以 帮助 我 们 计算 任意 点 


上 的 概率 密度 。 但 我 们 可 以 使 用 一 种 称 为 核 密度 估计 (kernel density estimation) 的 技术 来 


粗略 估计 概率 密度 。 不 严格 地 讲 ， 核 密度 估计 是 一 种 对 直方 图 进行 平 请 处 到 
每 个 数据 点 为 中 心 建立 一 个 概率 分 布 〈 通 常 为 正 态 分 布 )， 因 
































的 方法 。 它 以 
此 一 个 两 周 回报 样本 的 集合 


将 有 200 个 正 态 分 布 ， 每 个 分 布 的 总 体 均值 都 不 一 样 。 为 了 评估 在 给 定点 的 概率 密度 ， 可 
以 计算 所 有 正 态 分 布 在 这 个 点 上 的 概率 密度 ， 然 后 取 平 均值 。 核 密度 曲线 的 平滑 程度 取决 
于 它 的 带宽 (bandwidth)， 也 就 是 每 个 正 态 分 布 的 标准 差 。 本 书 的 GitHub 资料 库 上 提供 了 


一 个 核 密度 估计 的 实现 ， 既 可 以 用 于 RDD， 也 可 用 于 本 地 集合 。 为 了 市 省 篇 幅 ， 这 里 




















breeze-viz 是 一 个 Scala 工具 ， 我 们 可 以 用 它 轻松 地 绘制 简单 图 形 。 下 面 的 代码 绘制 了 样本 
集 的 密度 曲线 : 


imp 
imp 
imp 


def 
V 
V 
V 
V 


V 


V 


V 
V 
V 
p 
p 
p 
EF 

} 
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ort org.apache.spark.mllib.stat.KernelDensity 
ort org.apache.spark.util.StatCounter 
ort breeze.plot._ 


plotDistribution(samples: Array[DoubLe]): Figure = { 

al min = samples.min 

al max = samples.max 

al stddev = new StatCounter(samples).stdev 

al bandwidth = 1.06 * stddev * math.pow(samples.size, -0.2) © 


al domain = Range.Double(min, max, (max - min) / 100). 
toList. toArray 

al kd = new KernelDensity(). 
setSample(samples.toSeq.toDS.rdd). 
setBandwidth(bandwidth) 

al densities = kd.estimate(domain) 
al f = Figure() 

al p = f.subplot(0) 

+= plot(domain, densities) 

.Xxlabel = "Two Week Return ($)" 
.ylabel = "Density" 


@ 我 们 使 用 众所周知 的 “ 西 尔 弗 曼 的 经 验 法 则 ”(Silvermam’s rule of thumb)， 它 以 英国 统 
家 伯 纳 德 . 西 尔 弗 曼 (Bernard Silverman) 的 名 字 命 名 ， 用 于 选择 合理 的 带宽 。 


计 学 
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图 9-1 显示 了 标 普 500 历史 价格 两 周 回报 的 概率 分 布 (概率 密度 函数 )。 
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图 9-1: 标 普 500 两 周 回报 分 布 





图 9-2 显示 了 30 年 期 国债 两 周 回报 的 概率 分 布 。 
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图 9-2: 30 年 期 国债 两 周 回报 分 布 

我 们 将 为 每 个 因素 回报 拟 合 一 个 正 态 分 布 。 有 时 候 值得 多 花 些 精力 寻找 一 个 更 符合 实际 情 
况 的 分 布 ， 比 如 尾部 更 厚 的 分 布 ， 能 更 好 地 拟 合 数据 。 但 这 里 为 了 市 省 篇 幅 ， 就 不 深入 介 
绍 模拟 的 调 优 方法 了 。 
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最 简单 的 因素 回报 采样 方法 是 用 一 个 正 态 分 布 拟 合 每 个 因素 ， 然 后 对 这 个 分 布 进行 独立 
采样 。 然 而 ， 这 里 我 们 忽略 了 市 场 因 素 常常 是 相关 的 这 个 实际 情况 。 如 果 标 普 指数 下 跌 ， 
道琼斯 指数 也 可 能 跟着 下 跌 。 如 果 没 有 考虑 到 这 些 相 关 性 ， 我 们 得 到 的 风险 预测 (risk 
profile) 的 噪声 将 比 实际 情况 要 大 。 我 们 的 市 场 因 素 是 否 相 关 呢 ? Commons Math 中 的 皮 
尔 森 相关 系数 实现 可 以 帮 有 我 们 回答 这 个 问题 ， 代 码 如 下 : 






































import org.apache.commons.math3.stat.correlation.PearsonsCorrelation 


val factorCor = 
new PearsonsCorrelation(factorMat).getCorrelationMatrix().getData() 
println(factorCor.map(_.mkString("\t")).mkString("\n")) 


1.0 -0.3472 0.4424 0.4633 ©@ 
-0.3472 1.0 -0.4777 -0.5096 
0.4424 -0.4777 1.0 0.9199 
0.4633 -0.5096 ”0.9199 1.0 





@ 为 了 统一 格式 ， 我 们 只 保留 了 小 数 点 后 的 部 分 位 数 。 
由 于 非 对 角 线 上 有 非 零 值 ， 所 以 看 来 市 场 因素 之 间 存在 相关 性 。 


多 元 正 态 分 布 


要 考虑 因素 之 间 的 相关 性 ， 可 以 使 用 多 元 正 态 分 布 。 多 元 正 态 分 布 的 每 个 样本 是 一 个 向 


目 - 
蛙 ， 











在 其 他 所 有 维度 的 值 都 确定 的 情况 下 ， 对 于 给 定 维 度 的 值 服从 正 态 分 布 。 但 是 ， 多 个 





变量 的 联合 分 布 并 不 是 独立 分 布 。 


多 元 正 态 分 布 的 参数 为 对 应 每 个 维度 上 的 均值 向 量 和 一 个 矩阵， 该 矩阵 描述 了 任意 两 个 维 


度 之 间 的 协 方差 。 对 于 V 维 的 情况 ， 由 于 我 们 要 得 到 任何 两 个 维度 之 间 的 协 方差 ， 所 以 协 
方差 矩阵 为 Y 乘 W。 如 果 协 方差 矩阵 为 对 角 阵 ， 多 元 正 态 分 布 就 退化 成 独立 分 布 ， 但 如 果 




















非 对 角 线 上 存在 非 零 值 ， 那 么 表示 相应 的 两 个 变量 之 间 存在 相关 性 。 
VaR 相关 文献 常常 提 到 因素 权重 转换 步骤 ， 经 过 权重 转换 ， 因 素 之 间 的 相关 性 被 去 掉 


了 》 
特 和 





这 样 就 可 以 进行 采样 了 。 这 里 常常 用 到 楚 列 斯 基 分 解 (Cholesky decomposition) 或 

















EF 分解 (eigendecomposition)。 这 里 我 们 可 以 直接 调用 Apache Commons Math 工具 包 的 





MultivariateNormalDistribution， 它 在 底层 使 用 了 特征 分 解 。 


为 了 在 本 章 数 据 上 拟 合 一 个 多 元 正 态 分 布 ， 我 们 首先 要 得 到 其 样本 均值 和 协 方差 : 

















import org.apache.commons.math3.stat.correlation.Covariance 


val factorCov = new Covariance(factorMat).getCovarianceMatrix(). 
getData() 


val factorMeans = factorsReturns . 
map(factor => factor.sum / factor.size).toArray 
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接 下 来 ， 以 上 面 得 到 的 均值 和 协 方差 为 参数 创建 一 个 分 布 : 


import org.apache.commons.math3.distribution.MultivariateNormalDistribution 


val factorsDist = new MultivariateNormalDistribution(factorMeans, 
factorCov) 


从 分 布 中 对 市 场 条 件 进行 一 系列 采样 : 








factorsDist.sample() 
res1: Array[Double] = Array(-0.05782773255967754, 0.01890770078427768， 
0.029344325473062878，0.04398266164298203) 


factorsDist.sample() 
res2: Array[Double] = Array(-0.009840154244155741，-0.01573733572551166 ， 
0.029140934507992572，0.028227818241305904) 


9.8 运行 试验 

讨论 完 每 个 金融 工具 的 模型 和 市 场 因 素 回 报 的 采样 过 程 ， 现 在 就 可 以 开始 运行 实际 的 试验 
了 。 由 于 运行 试验 是 个 计算 密集 型 的 任务 ， 所 以 我 们 最 终 还 是 要 用 Spark 来 对 其 并 行 化 。 
在 每 次 试验 中 ， 我 们 希望 提取 一 组 风险 因素 样本 ， 用 该 样本 预测 每 个 金融 工具 的 回报 ， 然 
后 将 所 有 回报 相 加 得 到 总 体 试验 损失 。 为 了 使 分 布 具 有 代表 性 ， 我 们 需要 运行 数 千 次 甚至 
是 数 百 万 次 试验 。 


有 几 种 方式 可 以 对 模拟 进行 并 行 化 ， 比 如 可 以 对 试验 进行 并 行 化 ， 也 可 以 对 金融 工具 进行 
并 行 化 ， 或 者 同时 对 二 者 进行 并 行 化 。 如 果 同 时 进行 并 行 化 ， 我 们 要 创建 一 个 金融 工具 
的 数据 集 和 一 个 试验 参数 的 数据 集 ， 然 后 用 第 卡 儿 转换 cartesian 来 生成 一 个 包含 所 有 组 
合 的 数据 集 。 这 种 方法 最 通用 ， 但 有 两 个 缺点 : 第 一 ， 该 方法 需要 显 式 地 创建 试验 参数 
RDD， 而 这 其 实 可 以 通过 设置 随机 种 子 来 避免 ， 第 二 ， 需 要 进行 乱 序 操作 。 


对 金融 工具 进行 并 行 化 的 代码 如 下 : 










































































val randomSeed = 1496 

val instrumentsDS = ... 

def trialLossesForInstrument(seed: Long, instrument: Array[Double]) 
: Array[(Int, Double)] = { 


} 
instrumentsDS.flatMap(trialLossesForInstrument(randomSeed, _)). 
reduceByKey(_ + _) 





采用 这 种 方式 时 ， 数 据 按照 金融 工具 对 RDD 进行 分 区 ， 对 每 个 金融 工具 进行 flatMap 转 
换 就 可 以 得 到 每 次 试验 的 损失 。 对 所 有 任务 采用 相同 随机 种 子 意味 着 生成 的 试验 序列 是 相 
同 的 。reduceByKey 操作 把 同一 个 试验 的 对 应 的 所 有 损失 都 汇总 在 一 起 。 这 种 方式 的 缺点 
是 它 也 需要 进行 乱 序 ， 数 据 量 量 级 为 0(linstruments| * |trials|)。 











本 章 中 的 几 千 个 金融 工具 的 模型 数据 非常 小 ， 所 以 可 以 直接 放 和 每 个 执行 器 (executor) 
的 内 存 里 。 粗 略 估算 一 下 ， 即 使 有 100 万 个 工具 和 数 百 个 因素 ， 执 行 器 的 内 存 也 能 存 下 。 
100 万 个 工具 乘 以 500 个 因素 ， 再 乘 以 每 个 因素 权重 所 需 的 8 字 节 ， 总 共 约 4 GB， 对 当今 
大 多 数 集群 机 器 而 言 ， 将 这 些 数据 存放 到 每 个 执行 器 的 内 存 里 是 完全 可 行 的 。 因 此 我 们 应 
该 将 金融 工具 数据 设 为 广播 变量 ， 每 个 执行 器 都 有 完整 的 金融 工具 数据 的 好 处 在 于 ， 每 次 
实验 的 总 体 损失 在 单 台 机 器 上 就 能 算出 ， 这 样 就 没 必要 在 机 器 之 间 进 行 汇总 。 















































对 于 按 实验 进行 分 区 的 方法 (我们 将 使 用 这 种 方法 )， 首 先 需要 生成 一 个 随机 种 子 组 成 的 
RDD， 我 们 希望 每 个 分 区 的 随机 种 子 都 不 一 样 ， 这 样 每 个 分 区 将 产生 不 同 的 实验 ， 代 码 
如 下 : 











val parallelism = 1000 
val baseSeed = 1496 


val seeds = (baseSeed until baseSeed + parallelism) 
val seedDS = seeds.toDS().repartition(parallelism) 


随机 数 生成 是 一 个 耗 时 的 过 程 ， 也 是 CPU 密集 型 的 任务 。 预 先生 成 一 组 随机 数 然后 在 多 
个 作业 中 使 用 通常 效率 较 高 ， 但 本 章 不 使 用 这 个 方法 。 由 于 蒙特 卡 罗 实 验 假定 随机 数 服从 
独立 分 发 ， 因 此 为 了 符合 该 假设 ， 不 能 在 同一 个 作业 中 使 用 相同 的 随机 数 。 如 果 要 采用 事 
先生 成 随机 数 的 方法 ， 我 们 只 需 将 代码 中 的 tops 方法 替换 为 textFile， 并 加 载 事 先生 成 好 
的 randomNumbersDS 文件 即 可 。 








对 每 个 随机 种 子 ， 我 们 希望 生成 一 组 实验 参数 并 观察 这 些 参数 对 所 有 金融 工具 的 影响 。 我 
们 从 底层 开始 ， 先 写 一 个 国 数 计 算 单 个 实验 中 单个 工具 的 回报 ， 只 需 应 用 之 前 训练 好 的 
每 个 工具 对 应 的 线性 模型 即 可 。 由 于 回归 参数 的 instrument 数组 包含 了 截 距 (intercept 
term) ， 所 以 它 的 长 度 比 trial 数组 大 1: 




















def instrumentTrialReturn(instrument: Array[Double], 

trial: Array[DoubLe]): Double = { 

var instrumentTrialReturn = instrument(0) 

var T=°@ 

while (i < trial.length) { @ 
instrumentTrialReturn += trial(i) * instrument(i+1) 
i+= 1 

} 

instrumentTrialReturn 


} 





@ 因为 此 处 对 性 能 有 很 大 影响 ， 所 以 使 用 while 循环 ， 而 没有 用 Scala 的 函数 式 编程 。 


接着 ， 只 需 将 所 有 工具 的 回报 相 加 ， 即 可 得 到 单个 实验 的 全 体 回报 。 这 假定 我 们 持 有 的 投 
资 组 合 中 每 个 工具 的 价值 相同 。 如 果 每 只 股票 持 有 的 数量 不 同 ， 则 使 用 加 权 平 均 。 
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def trialReturn(trial: Array[Doublel], 
instruments: Seq[Array[Double]]): Double = { 
var totaLReturn = 0.0 
for (instrument <- instruments) { 
totalReturn += instrumentTrialReturn(instrument, trial) 


} 


totaLReturn / instruments.size 


} 


最 后 ， 我 们 需要 在 每 个 任务 中 生成 一 系列 实验 。 由 于 随机 数 的 选择 占 该 过 程 的 很 大 一 部 
分 ， 所 以 有 必要 选用 更 强大 的 随机 数 生成 器 ， 这 样 就 不 容易 产生 重复 的 随机 数 。Commons 
Math 包 中 Mersenne twister 的 实现 很 适合 ， 根 据 前 面 提 到 的 方法 ， 我 们 使 用 它 对 多 元 正 态 
分 布 进行 采样 。 注 意 ， 为 了 将 生成 的 因素 回报 转换 成 模型 中 所 需 的 特征 格式 ， 我 们 在 生成 
的 因素 回报 上 应 用 了 刚 定义 的 featurize 方法 : 












































import org.apache.commons.math3.random.MersenneTwister 


def trialReturns(seed: Long, numTrials: Int, 
instruments: Seq[Array[Double]], factorMeans: Array[Double], 
factorCovariances: Array[Array[Double]]): Seq[Double] = { 
val rand = new MersenneTwister(seed) 
val multivariateNormal = new MultivariateNormalDistribution( 
rand, factorMeans, factorCovariances) 


val trialReturns = new Array[Double](numTrials) 

for (i <- 0 until numTrials) { 
val trialFactorReturns = multivariateNormal.sample() 
val trialFeatures = featurize(trialFactorReturns) 
trialReturns(i) = trialReturn(trialFeatures, instruments) 


} 


trialReturns 


} 


现在 准备 工作 就 绕 ， 我 们 可 以 用 上 述 函 数 计算 出 一 个 RDD， 这 个 RDD 的 每 个 元 素 代表 一 
次 实验 的 总 体 回报 。 由 于 金融 工具 数据 ( 即 每 个 因素 对 每 个 工具 的 权重 矩阵 ) 很 大 ， 我 们 
将 它 设 为 广播 变量 。 这 样 每 个 执行 器 都 只 要 对 它 进 行 一 次 反 序列 化 即 可 。 





























val numTrials = 10000000 


val trials = seedDS.fLatMap( 
trialReturns(_, numTrials / parallelism, 
factorWeights, factorMeans, factorCov)) 


trials.cache() 


现在 回顾 一 下 ， 我 们 对 这 些 数 字 所 做 的 所 有 操作 都 是 为 了 计算 VaR。trials 现在 代表 了 投 
资 组 合 回报 的 经 验 分 布 。 要 计算 置信 水 平 为 95% 时 的 VaR， 需 要 找到 在 最 差 的 5% 和 最 好 
的 5% 的 情况 下 的 回报 。 有 了 经 验 分 布 ， 要 得 到 这 两 个 回报 ， 只 要 找到 经 验 分 布 上 的 一 个 
实验 ， 对 于 该 实验 ， 有 5% 的 实验 回报 比 它 低 ， 并 且 有 95% 的 实验 的 回报 比 它 高 。 在 驱动 
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程序 中 ， 用 takeordered 行动 从 所 有 实验 中 取出 最 差 的 5%， 就 可 以 达到 这 个 目的 。 这 个 于 
现 最 差 的 实验 回报 集合 中 的 最 高 回报 即 为 我 们 要 求 的 VaR。 








def fivepercentVaR(trials: Dataset[Double]): Double = { 
val quantiles = trials.stat.approxQuantile("value", 
Array(0.05), 0.0) 
quantiles.head 


} 


val valueAtRisk = fivePercentVaR(trials) 
valueAtRisk: Double = -0.010831826593164014 


用 几乎 完全 一 样 的 方法 也 能 求 出 CVaR。 不 过 求 CVaR 时 我 们 取 最 差 的 5% 的 实验 回报 集 
合 的 平均 回报 ， 而 不 是 其 中 的 最 高 回报 。 








def fivepercentCVaR(trials: Dataset[DoubLe]): Double = { 
val topLosses = trials.orderBy("value"). 
limit(math.max(trials.count().toInt / 20, 1)) 
topLosses.agg("value" -> "avg").first()(0).asInstanceOf[Double] 


} 


val conditionalValueAtRisk = fivePercentCVaR(triaLs) 
conditionalValueAtRisk: Double = -0.09002629251426077 


9.9 ”回报 分 布 的 可 视 化 


除了 计算 一 定 置信 水 平 下 的 VaR 之 外 ， 我 们 还 可 以 用 它 更 全 面 地 了 解 回归 分 布 。 回 报 服 
从 正 态 分 布 吗 ? 在 极端 情况 下 回报 会 不 稳定 吗 ? 与 我 们 之 前 为 每 个 市 场 因 素 做 过 的 方法 类 
似 ， 我 们 可 以 用 核 密 度 估计 来 估算 联合 概率 分 布 的 概率 密度 函数 〈 见 图 9-3)。 再 次 说 明 ， 
分 布 式 估算 核 密度 的 代码 (采用 RDD) 可 以 参考 本 书 附带 的 GitHub 资料 库 : 
































import org.apache.spark.sql.functions 


def plotDistribution(samples: Dataset[Double]): Figure = { 

val (min, max, count, stddev) = samples.agg( 
functions.min($"value"), 
functions.max($"value"), 
functions.count($"value"), 
functions.stddev_pop($"value") 

).as[(Double, Double, Long, Double)].first() 

val bandwidth = 1.06 * stddev * math.pow(count, -0.2) @ 











// 在 toArray 之 前 使 用 toList 是 为 了 扣 开 Scala 的 一 个 bug 

val domain = Range.Double(min, max, (max - min) / 100). 
toList. toArray 

val kd = new KernelDensity(). 
setSample(samples.rdd). 
setBandwidth(bandwidth) 

val densities = kd.estimate(domain) 
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val f = Figure() 
val p = f.subplot(0) 
p += plot(domain, densities) 
p.xlabel = "Two Week Return ($)" 
p.ylabel = "Density" 
f 

} 


plotDistribution(trials) 


@ 又 是 西 尔 弗 曼 的 经 验 法 则 。 














两 周 回 报 (美元 ) 








9-3: 两 周 回报 分 布 


9.10 结果 的 评估 

怎样 才能 确定 风险 评估 的 好 坏 ? 怎样 才能 知道 是 否 该 进行 更 多 次 实验 ? 一 般 来 说 ， 蒙 特 卡 罗 
模拟 的 误差 与 1/ Vn 成 正比 。 也 就 是 说 ， 通 常 实验 次 数 增加 4 倍 ， 那 么 误差 就 大 约 减 半 。 

自 举 算法 是 计算 VaR 统计 量 置信 区 间 的 好 方法 。 通 过 在 实验 得 到 的 投资 组 合 回报 集合 上 
进行 重复 放 回 采样 (repeatedly sampling with replacement) ， 可 以 得 到 一 个 VaR 的 自 举 分 布 。 
每 次 我 们 从 样本 中 取出 与 实验 次 数 相 等 的 样本 ， 并 根据 这 些 取出 的 样本 计算 VaR。 所 有 计 
算出 的 VaR 就 形成 了 一 个 经 验 分 布 ， 只 要 根据 该 经 验 分 布 的 分 位 数 就 能 得 到 置信 区 间 了 。 















































下 面 给 出 计算 RDD 的 所 有 统计 量 ( 即 函数 的 computestatistic 参数 ) 的 自 举 置信 区 间 。 
注意 该 函数 使 用 了 Spark 的 sample 方法 ， 第 一 个 参数 withReplacement 设 为 true， 第 二 个 
参数 设 为 1.0， 代 表 采 样 大 小 等 于 数据 集 大 小 : 











def bootstrappedConfidenceInterval( 
trials: Dataset[Double], 
computeStatistic: Dataset[Double] => Double, 
numResamples: Int, 
probability: Double): (Double, Double)= { 
val stats = (0 until numResamples).map { i => 
val resample = trials.sample(true, 1.0) 
computeStatistic(resample) 
}.sorted 
val LowerIndex 
val UpperIndex 
.toInt 
(stats(lowerIndex), stats(upperIndex)) 


} 


接 下 来 我 们 调用 这 个 函数 ， 并 传 入 前面 定 义 好 的 fivePercentVaR 函数 以 从 实验 RDD 中 计 
算 VaR: 


(numResamples * probability / 2 - 1).toInt 
math.ceil(numResamples * (1 - probability / 2)) 


bootstrappedConfidenceInterval(trials, fivepercentVaR, 100, .05) 


(-0.019480970253736192, -1.4971191125093586E-4) 


同样 我 们 可 以 计算 自 举 CVaR: 











bootstrappedConfidenceInterval(trials, fivepercentCVaR, 100, .05) 


(-0.10051267317397554, -0.08058996149775266) 














置信 区 间 提供 了 模型 对 于 结果 的 置信 水 平 信息 ， 但 并 没有 提供 模型 是 否 符合 实际 情况 的 信 
息 。 对 于 检测 结果 质量 ， 在 历史 数据 上 进行 回 测 (backtesting) 是 个 不 错 的 方法 。 对 VaR 
的 测试 通常 采用 Kupiec 提出 的 失败 频率 检验 法 (Proportion-of-Failures，POF)。POF 计算 
在 多 个 历史 时 间 段 内 的 投资 组 合 回报 ， 然 后 计算 损失 超过 VaR 的 次 数 。 备 择 假设 认为 VaR 
是 合理 的 ， 充 分 极限 检验 统计 量 认 为 VaR 没有 准确 估计 数据 。 下 面 我 们 给 出 检验 统计 量 的 
公式 ， 它 依赖 如 下 3 个 参数 : 计算 VaR 的 置信 水 平 参数 p、 损 失 超 过 VaR 的 历史 时 间 段 
的 次 数 x 和 历史 时 间 段 的 总 次 数 7: 



































到 了 一 X 

nl_ dU Ds 名 
一 区 
[ 


下 面 是 在 历史 数据 上 计算 检验 统计 量 的 代码 。 为 了 数值 计算 的 稳定 性 更 好 ， 我 们 放大 了 对 
数值 。 





x 


x 


7 
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var failures = 0 
for (i <- stocksReturns.head.indices) { 
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val Loss = stocksReturns.map(_(i)).sum / stocksReturns .size 
if (loss < valueAtRisk) { 
failures += 1 


} 


failures 

257 

val total = stocksReturns.size 

val confidenceLevel = 0.05 

val failureRatio = failures.toDouble / total 

val logNumer = ((total - failures) * math.logip(-confidenceLevel) + 
failures * math.1log(confidenceLevel)) 

val logDenom = ((total - failures) * math.logip(-failureRatio) + 


failures * math.log(failureRatio)) 
val testStatistic = -2 * (logNumer - logDenom) 


180.3543986286574 


如 果 备 择 假 设 为 VaR 是 合理 的 ， 那 么 该 检验 统计 量 服从 自由 度 为 1 的 卡 方 分 布 。 我 们 可 以 
用 Commons Math 类 ChisquaredDistribution 来 计算 检验 统计 值 对 应 的 p 值 : 


























import org.apache.commons.math3.distribution.ChiSquaredDistribution 
1 - new ChiSquaredDistribution(1.0).cumulativeprobability(testStatistic) 
结果 靖 值 很 小 ， 它 表示 我 们 有 充足 的 证 据 拒 绝 “ 模 型 是 合理 的 ”这 个 零 假 设 。 虽 然 我 们 之 


前 得 到 了 相当 紧密 的 置信 区 间 ， 表 明 我 们 的 模型 在 内 部 是 一 致 的 ， 但 是 测试 结果 表明 ， 它 
与 观察 的 实际 情况 并 不 相符 。 看 来 我 们 还 需要 进一步 改进 我 们 的 模型 。 

















9.11 小 结 


相对 于 金融 机 构 实际 应 用 的 模型 来 说 ， 本 章 练习 中 构造 的 模型 还 是 一 个 非常 粗略 的 初步 
结果 。 要 构造 一 个 准确 的 VaR 模型 ， 还 有 一 些 非 常 重 要 的 步骤 ， 但 本 章 只 进行 了 粗略 的 
讨论 。 比 如 ， 市 场 因 素 的 选择 决定 了 模型 的 好 坏 ， 金 融 机 构 常 常 在 模拟 中 引入 数 百 个 市 
场 因 素 。 


选择 这 些 因素 不 但 需要 在 历史 数据 上 运行 无 数 次 试验 ， 而 且 需 要 大 量 创新 性 实践 。 将 市 场 
因素 映射 为 工具 回报 的 预测 模型 也 相当 重要 。 本 章 中 我 们 用 了 简单 的 线性 模型 ， 但 许多 模 
拟 采 用 非 线 性 函数 或 模拟 布朗 运动 的 时 间 轨 迹 。 最 后 ， 还 应 该 注意 用 于 模拟 因素 回报 的 分 
布 国 数 ，Kolmogorov-Smirnoff 测试 和 卡 方 测试 常用 于 测试 经 验 分 布 的 正 态 性 ，Q-Q 曲线 
图 可 以 形象 地 比较 不 同 分 布 。 相 比 本 章 中 采用 的 正 态 分 布 ， 尾 部 更 厚 的 分 布 曲线 通常 能 
更 好 地 反映 金融 风险 。 要 想 更 好 地 了 解 此 类 分 布 曲线 ， 可 以 参考 Markus Haas 和 Christian 


Pigorsch 的 文章 “Financial Economics, Fat-tailed Distributions”。 
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银行 也 使 用 Spark 和 大 规模 数据 处 理 框架 基于 历史 数据 计算 VaR。 想 了 解 基于 历史 数据 的 
VaR 计算 方法 的 概况 和 不 同方 法 的 表现 ， 可 以 参考 Darryll Hendricks 的 论文 “Evaluation of 
Value-at-Risk Models Using Historical Data” (https:/Wnyfed.org/1ACalI2O ) 。 

















壹 特 卡 罗 风 险 模 拟 的 作用 并 不 只 是 计算 单个 统计 量 。 通 过 影响 投资 决策 ， 其 结果 还 可 用 于 
主动 降低 投资 组 合 的 风险 。 举 例 来 说 ， 如 果 在 回报 最 差 的 实验 中 一 个 特定 的 工具 集合 常 党 
多 次 造成 损失 ， 就 可 以 考虑 将 这 些 工 具 从 投资 组 合 中 去 掉 ， 或 者 增加 逆向 对 冲 工具 。 
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第 10 章 


基因 数据 分 析 和 BDG 项 目 





作者 : 于 里 。 莱 瑟 森 


我 们 需要 把 地 球 上 的 SCHPON ( 硫 、 碳 、 和 氮 、 砚 、 饼 和 和 氮 ， 各 种 “ 卵 ") 发 射 到 外 太空 。 
George M. Church 





随 着 下 一 代 DNA 测序 (next-generation DNA sequencing，NGS) 技术 的 出 现 ， 生 命 科 学 迅 
速 变 成 了 一 个 数据 驱动 的 领域 。 然 而 如 何 充分 利用 这 些 数据 ， 对 传统 计算 生态 系统 是 个 不 
小 的 挑战 。 这 些 传统 系统 的 分 布 式 计算 基于 底层 操作 原 语 (比如 DRMAA 或 MPI) 构造 ， 
所 以 它们 很 难 用 ， 而 且 使 用 纷繁 复杂 的 半 结 构 文本 格式 。 


本 章 主要 有 3 个 目标 。 第 一 ， 面 向 普通 Spark 用 户 介绍 一 些 新 的 序列 化 和 文件 格式 (Avro 
和 Parquet) ， 这 些 格式 可 以 很 好 地 与 Hadoop 结合 ， 大 大 简化 了 数据 管理 的 许多 问题 。 使 
用 这 些 序列 化 技术 可 以 实现 紧凑 的 二 进 制 表示 、 面 向 服务 的 架构 和 跨 语 言 的 兼容 性 ， 对 许 
多 情况 我 们 都 推荐 使 用 它们 。 第 二 ， 面 向 那些 有 经 验 的 生物 信息 学 家 介绍 在 Spark 中 如 何 
完成 典型 的 基因 学 任务 。 





















































具体 来 说 ， 我 们 用 Spark 操作 大 量 基 因 学 数据 ， 对 其 进行 处 理 、 过 滤 ， 构 造 转录 因子 结 
合 位 点 预测 模型 ， 并 把 ENCODE (https://www.encodeproject.org/) 基因 组 标注 与 1000 个 
Genome 项 目 变 体 (http:Wwww.internationalgenome.org/) 进行 联结 。 最 后 ， 本 章 还 可 作 
为 ADAM 项 目的 教程 。 ADAM 项 目 提供 了 一 组 基因 学 相关 的 Avro 模式 ， 以 及 大 规模 基 
因 学 分 析 的 Spark API 和 命令 行 工具 。ADAM 项 目 还 基于 Hadoop 和 Spark 提供 了 GATK 
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(Genome Analysis Toolkit, https://software.broadinstitute.org/gatk/best-practices/) 最 佳 实践 


的 原生 分 布 式 实现 。 


本 章 介 绍 基因 学 的 部 分 面向 有 经 验 的 生物 信息 学 家 ， 他 们 对 其 中 的 典型 问题 比较 熟悉 。 但 
数据 序列 化 部 分 对 任何 要 处 理 大 量 数据 的 读者 都 适用 。 新 手 如 果 感 兴趣 的 话 ， 生 物 学 入 
门 知识 可 以 参考 Eric Lander 的 EdX 课程 (https://www.edx.org/course/introduction-biology- 
secret-life-mitx-7-00x-6) 。 有 关 生 物 信息 学 的 介绍 , 请 参阅 Arthur Lesk 的 著作 Introduction to 


Bioinformatics。 























最 后 ， 因 为 基因 组 隐 含 着 一 个 一 维 坐 标 系 统 ， 所 以 许多 基因 组 操作 本 质 上 是 空间 操作 。 
ADAM 项 目 提供 了 针对 基因 组 学 的 API， 以 及 使 用 旧版 RDD 接口 执行 分 布 式 空间 连接 的 
实现 。 因 此 ， 本 章 继续 使 用 原来 的 接口 ， 而 不 是 基于 Dataset 和 DataFrame 的 新 接口 。 














RDD 使 用 说 明 
与 本 书 其 余 章 节 不 同 ， 本 章 和 下 一 章 将 利用 Spark 旧版 的 RDD API。 主 要 原因 是 
ADAM 项 目 已 经 实现 了 许多 专门 用 于 一 维 几 何 计算 的 连接 算 子 ， 这 些 计算 在 基因 组 学 
处 理 中 是 很 常见 的 。 这 些 操 作 还 没有 移植 到 新 的 Dataset API 上 ， 不 过 移植 已 经 在 路 线 
图 上 了 。 此 外 ，DataFrame API 抽象 掉 了 更 多 分 布 式 计算 的 细节 ， 但 移植 ADAM 连接 
运算 符 需要 和 Spark 的 查询 计划 器 交互 。 另 一 方面 ， 当 读者 遇 到 使 用 RDD API 的 场景 
时 ， 比 如 使 用 其 他 Spark 库 或 遗留 代码 ， 本 章 也 可 以 作为 参考 资料 。 











10.1 分 离 存储 与 模型 


生物 信息 学 家 在 数据 格式 上 花 了 太 多 精力 ， 我 们 简单 罗列 一 下 这 些 格式 ， 包 括 .fasta、 
fastq、 .sam、 .bam、 .vcf、 .gvcf、 .bcf、 .bed、 .gff、 .gtf、 .narrowPeak、 .wig、 .bigWig、 
.bigBed、.ped、.tped 等 一 大 串 。 更 不 用 说 这 些 科学 家 花 了 多 少 精力 研究 每 个 定制 工具 的 
定制 格式 。 然 而 这 些 格式 的 规范 要 么 不 完整 ， 要 么 太 模 糊 (这 样 很 难保 证 实现 的 一 致 性 或 
兼容 性 )， 而 且 它 们 使 用 ASCII 编码 数据 。ASCII 数据 在 生物 信息 学 中 用 得 非常 普遍 ， 但 
编码 效率 不 高 ， 压 缩 比 相 对 较 差 。 社 区 已 经 开始 改进 这 些 规 范 的 不 足 之 处 ， 参 见 https:// 
github.com/samtools/hts-specs。 除 此 之 外 ， 数 据 必 须 经 过 解析 及 其 他 计算 处 理 。 因 为 实 
质 上 这 些 格式 只 有 几 种 常用 对 象 类 型 : 对 齐 序列 读数 (aligned sequence read)、 命 名 基因 
型 (called genotype)、 序 列 特征 和 表现 型 (phenotype)， 所 以 尤其 麻烦 。( 术 语 “ 序 列 特 
征 ” 在 基因 学 中 的 含义 有 些 模糊 ， 本 章 中 它 的 意思 是 UCSC 基因 组 浏览 器 里 的 序列 。) 
biopython (http://biopython.org/) 之 类 的 全 能 解析 工具 (比如 Bio.SeqI0) 由 于 可 以 把 各 种 
文件 格式 转化 为 几 种 常用 内 存 模 型 (比如 Bio.Seq、Bio.SeqRecord 和 Bio.SeqFeature 等 )， 
深 受 大 家 欢迎 。 
























































基因 数据 分 析 和 BDG 项 目 | 191 

















利用 Apache Avro 之 类 的 序列 化 框架 ,我们 可 以 把 这 些 问 题 一 并 解决 掉 。Avro 的 关键 是 使 
数据 模型 ( 即 显 示 模 式 ) 独立 于 底层 数据 存储 格式 和 语言 的 内 存 表 示 : Avro 指定 进程 之 间 
某 种 数据 的 通信 方式 ， 不 管 它 是 在 互联 网 上 跨 进 程 通信 ， 还 是 进程 将 数据 写 和 人 某 种 文件 格 
式 。 比 如 ， 一 个 Java 程序 可 以 使 用 Avro 将 数据 写 入 多 种 底层 数据 格式 ， 但 Avro 的 数据 模 
型 兼容 所 有 这 些 格式 。 这 样 每 个 进程 都 不 需要 担心 不 同 格式 之 间 的 兼容 性 ， 而 只 要 知道 怎 
样 读 取 Avro 数据 模型 即 可 ， 文 件 系统 则 知道 如 何 生成 Avro 数据 。 


我 们 现在 来 看 一 个 序列 特征 的 示例 。 先 用 Avro 接口 定义 语言 (IDL) 来 给 对 象 指定 合适 的 
模式 : 























enum Strand { 
Forward ， 
Reverse， 
Independent 


record SequenceFeature { 
string featureId; 
string featureType; © 
string chromosome; 
Long startCoord; 
Long endCoord; 
Strand strand; 
double value; 
map<string> attributes; 


} 





@ 特征 类 型 ， 比 如 “conservation”“centipede”“gene”。 


类 型 sequenceFeature 可 用 于 对 保护 水 平 、 是 否 存 在 发 起 者 或 者 核糖 体 结合 位 点 、 转 录 因 
子 结合 位 点 等 进行 编码 。 我 们 可 以 把 它 看 成 JSON 格式 的 二 进 制版 本 ,但 Avro 限制 更 多 ， 
性 能 也 高 得 多 。 给 定 一 个 数据 模式 ，Avro 规范 精确 规定 对 象 的 二 进 制 编码 ， 这 样 我 们 就 可 
以 轻易 在 进程 之 间 《〈 即 使 进程 使 用 不 同 编程 语言 编写 ) 传递 对 象 ， 可 以 通过 网 络 通信 的 方 
式 ， 也 可 以 通过 将 对 象 存 储 到 磁盘 的 方式 。Avro 项 目 提 供 处 理 Avro 数据 的 多 种 语言 编码 
模块 ， 包 括 Java、C/C++、Python 和 Perl。 除 此 之 外 ， 编 程 语言 还 可 以 按照 语言 最 优 的 方 
式 将 对 象 存 和 内存。 使 数据 模型 独立 于 存储 格式 的 做 法 还 提供 了 另 一 层 灵 活性 或 抽象 。 为 
了 提高 查询 速度 ， 我 们 可 以 将 Avro 数据 序列 化 为 二 进 制 对 象 (Avro 容器 文件 ) 并 以 列 式 
文件 格式 存储 (比如 Parquet 文件 )， 也 可 以 为 了 最 高 的 灵活 性 (牺牲 了 效率 ) 而 将 Avro 
数据 存 为 文本 形式 的 JSON 格式 。 最 后 ，Avro 支持 模式 的 进化 ， 用 户 可 以 按 需 要 随时 添加 
新 字段 ， 软 件 会 优雅 地 处 理 好 新 / 旧版 本 模式 的 兼容 问题 。 

总 之 ，Avro 是 一 个 高 效 的 二 进 制 编码 。 有 了 它 我 们 就 可 以 轻松 修改 数据 模式 ， 处 理 多 种 编 
程 语言 产生 的 数据 ， 并 且 将 数据 存 成 多 种 数据 格式 。 使 用 Avro 模式 存储 数据 后 ， 我 们 再 
也 不 用 为 越 来 越 多 的 定制 化 数据 格式 操心 ， 同 时 又 能 提高 计算 效率 。 
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序列 化 /RPC 框架 


开源 社区 有 许多 序列 化 框架 。 大 数据 领域 用 得 最 多 的 序列 化 框架 要 数 Apache Avro、 
Apache Thrift 和 谷歌 公司 的 Protocol Buffers (protobuf) 。 本 质 上 它们 都 提供 了 一 个 
IDL， 用 于 说 明 对 象 /消息 类 型 的 模式 ， 而 且 都 可 以 编译 成 许多 不 同 编程 语言 。Thrift 
在 Protocol Buffers 的 IDL 之 上 还 可 以 指定 RPC (谷歌 开源 了 基于 protobuf 的 RPC 框 
架 gRPC)。 最 后 在 IDL 和 RPC 之 上 ，Avro 还 提供 了 将 数据 存储 到 磁盘 上 的 文件 格式 
规范 。 要 想 泛泛 地 说 哪个 序列 化 框架 适合 哪 种 场合 是 不 容易 的 ， 因 为 它们 都 支持 不 同 
的 语言 而 且 对 不 同 语言 的 性 能 也 各 不 相同 。 谷 歌 最 近 发 布 了 一 个 “序列 化 ”框架 ， 对 
在 线 传输 (on-the-wire) 和 内 存 中 (in-memory) 使 用 相同 的 字 节 表示 ， 从 而 有 效 地 消 
减 了 昂贵 的 序列 化 步 又 。 


因为 不 同 的 框架 支持 不 同 的 语言 ， 并 且 对 于 不 同 的 语言 又 有 不 同 的 性 能 ， 所 以 很 难 宽 
泛 地 说 在 什么 情况 下 哪个 框架 最 合适 。 














对 实际 数据 来 说 ， 前 面 示例 中 的 SequenceFeature 模型 有 些 简 单 ， 但 大 数据 基因 (Big Data 
Genomics，BDG) 项 目 (http://bdgenomics.org/) 已 经 为 我 们 提供 了 许多 现成 对 象 的 Avro 
模式 定义 ， 比 如 : 





。 表示 读数 的 AlignmentRecord 

。 表示 基因 组 变 体 和 元 数据 的 Variant 

。 表示 一 个 基因 位 点 的 命名 基因 型 Genotype 
。 表示 序列 特征 (基因 段 标注 ) 的 Feature 

















实际 模式 可 以 在 bdg-formats 的 GitHub 资料 库 (https://github.com/bigdatagenomics/bdg- 
formats) 上 找到 。BDG 格式 可 以 替代 无 处 不 在 的 “传统 ”格式 〈 如 BAM 和 VCF)， 但 更 
常用 作 高 性 能 的 “中 间 ” 格 式 。( 这 些 BDG 格式 的 最 初 目标 是 取代 BAM 和 VCF， 但 是 
BAM 和 VCF 极其 广泛 的 使 用 已 经 证 明 这 个 目标 是 很 难 实现 的 。) 全 球 基 因 学 和 健康 联盟 
也 在 开始 使 用 Protocol Buffers 开发 自己 的 模式 (https://github.com/ga4gh/schemas)。 这 应 该 
不 会 造成 http://xkcd.com/927/ 的 状况 (这 里 面 有 太 多 相互 竞争 的 模式 )。 即 使 出 现 这 种 状 
况 ， 相 比 目 前 那些 定制 的 ASCII 编码 ，Avro 还 是 在 性 能 和 数据 建 模 方面 有 巨大 优势 。 本 
章 后 面 将 使 用 几 个 BDG 模式 来 完成 一 些 典 型 的 基因 学 任务 。 


10.2 用 ADAM CLI 导 入 基因 学 数据 


本 章 在 Spark 中 大 量 使 用 基因 学 项 目 ADAM。 该 项 目 还 在 持续 开发 之 中 ， 
包括 它 的 文档 也 是 。 如 果 你 磁 到 问题 ， 一 定 要 检查 一 下 GitHub 上 最 新 的 
README 文件 、GitHub 问题 跟踪 器 和 adam- deveLoper 邮件 列表 。 
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BDG 核心 基因 学 工具 称 为 ADAM。 从 一 组 映射 读 取 (mapped read) 开始 ， 这 些 核心 工 
具 提 供 重复 标注 (mark-duplicate)、 基 本 质量 分 数 重 校 (base quality score recalibration ， 
BQSR)、 插 入 和 缺失 突变 重新 比 对 (indel realignment) 和 变 体 识 别 (variant calling) 等 功 
能 。 为 了 简化 这 些 核 心 功能 的 使 用 ，ADAM 还 提供 了 一 个 命令 行 界面 工具 。 相 比 于 HPC， 
这 些 命令 行 工具 可 以 识别 Hadoop 和 HDFS， 其 中 许多 工具 可 以 自动 在 整个 集群 中 进行 寺 
行 化 而 不 用 用 户 手动 拆 分 文件 或 调度 作业 。 























1 














按照 README 文件 的 指示 ， 我 们 可 以 构建 ADAM 项 目 : 
git clone https://github.com/bigdatagenomics/adam.git && cd adam 


export "MAVEN_OPTS=-Xmx512m -XX:MaxPermSize=128m" 
mvn clean package -DskipTests 


或 者 也 可 以 从 ADAM 的 Github 页 面 上 下 载 。 





ADAM 提供 一 个 作业 提交 脚本 ， 可 以 实现 与 Spark 的 spark-submit 的 交互 。 使 用 该 脚本 最 
简单 的 方式 可 能 就 是 给 它 一 个 别名 : 





export ADAM HOME=path/to/adam 
alias adam-submit="S$ADAM HOME/bin/adam-submit" 





现在 应 该 可 以 从 命令 行 上 运行 ADAM 工具 并 得 到 如 下 消息 。 正 如 下 面 的 用 法 介绍 所 示 ，Spark 
的 参数 要 在 ADAM 的 参数 之 前 指定 。 











$ adam-submit 
Using ADAM MAIN=org.bdgenomics.adam.cli.ADAMMain 


EC 


e 888~-_ e e e 
d8b 888 \ d8b d8b d8b 
/Y88b 888 | /Y88b d888bdY88b 
/ Y88b 888 | / Y88b / Y88Y Y888b 
/___Y88b 888 / /____Y88b / YY Y888b 
/ Y88b 888_-~ / Y88b / Y888b 


Usage: adam-submit [<spark-args> --] <adam-args> 
Choose one of the following commands: 


ADAM ACTIONS 
countKmers : Counts the k-mers/q-mers from a read dataset. 
countContigKmers : Counts the k-mers/q-mers from a read dataset. 
transform : Convert SAM/BAM to ADAM format and optionally perform... 
transformFeatures : Convert a file with sequence features into correspondin... 
mergeShards : Merges the shards of a file 
reads2coverage : Calculate the coverage from a given ADAM file 


Fe 


想 要 代码 成 功 运行 ， 可 能 需要 设置 一 些 环境 变量 ， 如 SPARK_HOME 和 HADOOP_CONF_DIR。 





我 们 先 得 到 一 个 .bam 文件 ， 里 面包 含 一些 mapped NGS read， 将 它们 转换 为 相应 的 BDG 
格式 (这 里 也 就 是 AlignedRecord) 并 保存 到 HDFS 上 。 首 先 我 们 取得 一 个 合适 的 .bam 文 
件 并 把 它 放 到 HDFS 上 。 








# 注意 该 文件 大 小 有 16GB 

curl -0 ftp://ftp.ncbi.nih.gov/1000genomes/ftp/phase3/data\ 
/HG00103/alignment/HG00103.mapped .ILLUMINA. bwa.GBR\ 
.Low_coverage.20120522.bam 











# 也 可 以 用 Aspera， 它 的 速度 快 得 

ascp -i path/to/asperaweb_id_dsa.openssh -QTr -L 10G \ 
anonftp@ftp.ncbi.nlm.nih.gov:/1000genomes/ftp/phase3/data\ 
/HG00103/alignment/HG00103.mapped .ILLUMINA. bwa .GBR\ 
.Low_coverage.20120522.bam . 








hadoop fs -put HG00103.mapped.ILLUMINA.bwa.GBR\ 
.Low_coverage.20120522.bam /user/ds/genomics 


接着 可 以 用 ADAM 转换 命令 把 .bam 文件 转 成 Parquet 格式 〈 请 参考 后 面 的 “Parquet 格式 
和 列 式 存储 ”) 。 该 命令 既 能 在 集群 上 运行 ， 也 能 在 本 地 模式 下 运行 。 





adam-submit \ 
--master yarn \.O 
--deploy-mode client \ 
--driver-memory 8G \ 
--Num-executors 6 \ 
--executor-cores 4 \ 
--executor-memory 12G \ 
-- 
transform \ @ 
/user/ds/genomics/HG00103.mapped.ILLUMINA. bwa.GBR\ 
.Low_coverage.20120522.bam \ 
/user/ds/genomics/reads/HG00103 


@ 在 YARN 上 执行 的 Spark 参数 示例 。 
@ ADAM 命令 本 身 。 











这 会 使 控制 台 产 生 大 量 输出 ， 其 中 包括 跟踪 作业 进度 的 URL。 我 们 来 看 看 输出 的 具体 





$ hadoop fs -du -h /user/ds/genomics/reads/HG00103 
0 0 ch10/reads/HG00103/_SUCCESS 
8 . 


6 K 25.7 K ch1i0/reads/HG00103/_common_metadata 
462.0 K 1.4M ch10/reads/HG00103/_metadata 
1.5 K 4.4 K ch10/reads/HG00103/_rgdict.avro 


17.7 K 53.2 K chi0/reads/HG00103/_seqdict.avro 


103.1 M 309.3 M ch1i0/reads/HG00103/part-r-00000.gz.parquet 
102.9 M 308.6 M ch1i0/reads/HG00103/part-r-00001.gz.parquet 
102.7 M 308.2 M ch1i0/reads/HG00103/part-r-00002.gz.parquet 
[se] 
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106.8 M 320.4 M ch10/reads/HG00103/part-r-00126.gz.parquet 
12.4M 37.3M ch1i0/reads/HG00103/part-r-00127.gz.parquet 


结果 数据 集 把 /user/ds/genomics/reads/HG00103/ 目录 下 所 有 的 文件 都 合 在 一 起 ， 每 个 part- 
*.parquet 文件 对 应 一 个 Spark 任务 输出 。 你 可 能 也 会 注意 到 数据 的 压缩 效率 比 开始 的 .bam 
文件 (底层 是 gzip 压缩 ) 要 高 ， 这 要 归功 于 列 式 存储 〈 详 见 后 面 的 “Parquet 格式 和 列 式 
存储 ”) : 























$ hadoop fs -du -h "/user/ds/genomics/HG00103.*.bam" 
15.9 G /user/ds/genomics/HG00103. [...] .bam 


$ hadoop fs -du -h -s /user/ds/genomics/reads/HG00103 
12.8 G /user/ds/genomics/reads/HG00103 








我 们 在 命令 行 里 交互 地 看 一 个 对 象 。 首 先 用 ADAM 助手 脚本 启动 Spark shell。 它 默认 的 参 
数 /选项 与 Spark 脚本 相同 ， 但 会 加 载 所 有 必需 的 JAR 文件 。 下 面 的 示例 中 ，Spark 运行 
在 YARN 上 : 


export SPARK_HOME=/path/to/spark 
$ADAM_HOME/bin/adam-shell 
El] 


Welcome to 


pe Er Si . 
No rh es re 
/_/._/\,////\\ version 2.0.2 
PAY/ 


Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit [...], Java 1.8.0_112) 
Type in expressions to have them evaluated. 


Type :help for more information. 


scala> 





注意 现在 的 任务 是 运行 在 YARN 上 的 ， 交 互 式 Spark shell 要 求 是 yarn-client 模式 ， 这 时 
驱动 程序 在 本 地 运行 。 同 时 我 们 也 需要 设置 好 HADOOP_CONF_DIR 或 者 YARN_CONF_DIR。 现 在 
把 aligned read 数据 加 载 为 RDD[AlignmentRecord]: 











import org.bdgenomics.adam.rdd.ADAMContext._ 


val readsRDD = sc.loadAlignments("/user/ds/genomics/reads/HG00103") 
readsRDD.rdd.first() 





输出 一 些 日 志和 结果 本 身 (为 清楚 起 见 ， 以 下 输出 经 过 修改 ) : 





res3: org.bdgenomics.formats.avro.AlignmentRecord = { 
"readInFragment": 0, "contigName": "1", "start": 9992, 
"oldPosition": null, "end": 10091, "mapq": 25， 
"readName": "SRRO62643.12466352"， 





" sequence": "CTCTTCCGATCTCCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAA 
CCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCT " ， 
"qual": "##@@BA:36<FBGCBBD>AHHB@4DD@B; ODEF6A9EDC6>9CCC@9@ITH@I8IIC4 


@GH=HGHCIHHHGAGABEGAGG@EGAFHGFFEEE?DEFDDA. "， 


"cigar": "1S99M", "oldCigar": null, "basesTrimmedFromStart": 0， 
"basesTrimmedFromEnd": 0, "readPaired": true, "properPpair": false, 


"readMapped": true, "mateMapped": false, 
"failedVendorQualityChecks": 
"readNegativeStrand": 


false, "duplicateRead": 
true, "mateNegativeStrand": 


false, 
true, 


"primaryAlignment": true, "secondaryAlignment": false, 


"supplementaryAlignment": false, "mis... 


你 看 到 的 读数 可 能 不 一 样 ， 原 因 是 集群 上 数据 的 分 





区 不 同 ， 不 能 保证 哪 条 读数 会 先 返 回 。 





现在 我 们 可 以 在 数据 集 上 交互 式 地 提出 问题 ， 在 问 这 些 问题 的 同时 集群 在 后 台 执 行 运算 。 


数据 集中 有 多 少 个 读数 ? 
readsRDD.rdd.count() 


res16: Long = 160397565 


接着 看 看 这 些 数据 集中 的 读数 ， 是 来 





val uniq_chr = (readsRDD.rdd 
.map(_.getContigName) 
.distinct() 
.collect()) 
uniq_chr.sorted.foreach(println) 


1 

10 

13 

12 

[sa 
0L000249 .1 
MT 
NC_007605 
X 

从 

hs37d5 


自 人 类 染色 体 吗 ? 


很 好 ! 我 们 观察 一 下 读数 ， 这 些 读数 来 自 染 色 体 1~22, 对 和 YY， 以 及 不 是 “ 主 ” 染 色 体 的 
一 部 分 或 位 置 未 知 的 一 些 其 他 染色 体 块 。 现 在 来 更 进一步 分 析 这 条 语句 : 





val uniq_chr = (readsRDD 上 
.rdd @ 
.map(_.getContigName) © 
.distinct() @ 
.collect()) © 


@ ALignedReadRDD: 一 个 ADAM 类 型 ， 包 含 存 储 我 们 所 有 数据 的 RDD。 
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@ RDD[AlignmentRecord]: 底层 的 Spark RDD。 


© 


RDD[String]: 从 每 个 AlignmentRecord 对 象 中 提取 contig name 并 将 其 转 成 字符 串 。 


@ RDD[String]: 会 产生 一 个 reduce/shuffle， 以 将 所 有 不 同 的 contig name 汇总 起 来 ， 虽 然 
这 个 RDD 应 该 不 大 ， 但 它 还 是 一 个 RDD。 


@ Array[String]: 会 触发 计算 并 将 RDD 中 的 数据 传 到 客户 端 应 用 ( 即 shell) 。 
举 一 个 更 具 临 床 意 义 的 例子 ， 假 设 我 们 正在 测试 一 个 人 的 基因 组 ， 以 检查 基因 中 是 否 携带 


任何 导致 儿童 患 圳 性 纤维 化 (cystic fibrosis，CF) 风险 增加 的 基因 变 体 。 我 们 的 基因 测试 
使 用 下 一 代 DNA 测序 来 生成 多 个 相关 基因 的 读数 ， 如 CFTR 基因 (其 突变 可 引起 CF)。 





在 数据 流 过 我 们 的 基因 























分 类 管道 后 ， 我 们 确定 CFTR 基因 似乎 具有 破坏 其 功能 的 提前 终止 





密码 子 。 然 而 ， 这 种 突变 在 HGMD (http://www.hgmd.cf.ac.uk/ac/index.php) 中 从 未 出 现 ， 
也 没有 在 汇聚 了 CF 基因 变 体 的 Sickkids CFTR 数据 库 (http:/www.genet.sickkids.on.ca/ 
app) 中 出 现 。 我 们 想 回 过 头 来 看 看 原始 基因 序列 数据 并 检查 潜在 有 害 基因 型 是 否 属于 误 
报 。 为 此 需要 人 工分 析 变 体位 点 ， 比 如 7 号 染色 体 所 在 的 117149189 位 置 对 应 的 所 有 读数 











(如 图 10-1 所 示 ) 




















val cftr_reads = (readsRDD.rdd 
.filter(_.getContigName == "7") 
.filter(_.getStart <= 117149189) 
.filter(_.getEnd > 117149189) 
.Collect()) 

cftr_reads.length // cftr_reads 是 一 个 本 地 的 Array[AlignmentRecord] 


res2: Int = 9 





chr7 


i. 


CT mm 1 le 于 人 
p22l p212 pl53 pl43 pl41 pl2.2 Plll qll.2 q2l11  q21.2 9q2271 9q311 ~ q3132 q323 934  q361 

















117,148,800 bp 
| | 


846 bp - 
117,148,900 bp 117,149,000 bp 117,149,100 bp 117,149,200 bp 117,149.300 bp 117,149,400 bp 117,149.500 bp 117,149.6 
| | 1 | | | | | 








HG00103.map am Coverage 


HG00103.mapped.ILLUMINA bw 
low_coverage.20120522.bam 




















一 一 


























现在 我 们 可 以 人 工 检查 这 9 个 读数 或 者 按照 指定 方式 对 齐 它们 ， 并 检查 报告 的 致 病变 体 是 
否 属于 误 报 。 下 面 是 个 小 练习 : 请 问 7 号 染色 体 的 平均 覆盖 率 是 多 少 ? (这 个 值 肯定 很 
小 ， 它 不 足以 让 我 们 可 靠 地 判断 给 定 未 知 的 基因 型 。) 


假设 我 们 有 一 个 向 临床 医生 提供 载体 筛选 服务 的 诊断 室 ， 用 Hadoop 对 原始 数据 进行 归档 
可 以 使 数据 保持 在 相对 较 “ 热 ”的 状态 (与 磁带 等 归档 技术 相 比 )。 除 了 可 靠 性 高 的 优点 
之 外 ， 用 Hadoop 处 理 实际 数据 还 能 让 我 们 很 便捷 地 访问 所 有 历史 数据 ， 这 些 历史 数据 可 
以 用 于 质量 控制 (QC) 或 那些 需要 人 工 干预 的 场合 ， 比 如 本 章 前 面 提 到 的 CFTR 示例 。 除 
了 可 以 快速 访问 全 部 数据 ， 数 据 集 中 存放 后 我 们 还 能 轻松 地 进行 大 规模 分 析 ， 比 如 进行 人 
口 基因 学 分 析 、 大 规模 QC 分 析 ， 等 等 。 


Parquet 格 式 和 列 式 存储 
上 一 节 ， 我 们 讨论 了 如 何 操作 大 量 序 列 数 据 而 不 用 担心 底层 存储 规范 或 运算 的 并 行 化 。 但 
是 ， 请 注意 ADAM 项 目 用 的 是 Parquet 文件 格式 ， 该 格式 是 这 里 性 能 大 幅 提升 的 原因 。 













































































Parquet 是 一 种 开源 文件 格式 规范 ， 并 且 它 提供 了 一 套 reader/writer 实现 。 一 般 情况 下 对 分 
析 型 查询 用 到 的 数据 (一 次 写 入 多 次 读 取 )， 我 们 都 推荐 使 用 Parquet 格式 。 该 格式 思想 主 
要 来 源 于 谷歌 的 Dremel 系统 [请 参考 “Dremel: Interactive Analysis of Web-scale Datasets” 
(https://static.googleusercontent.com/media/research.google.com/en/pubs/archive/36632.pdf) 
Proc. VLDB, 2010, by Melnik et al.] 中 底层 的 数据 存储 格式 。Parquet 的 数据 模型 可 以 和 
Avro、Thrift 以 及 Protocol Buffers 兼容 。 具 体 来 说 ， 它 支持 大 多 数 常用 数据 库 类 型 ( 整 型 、 
双 精 度 、 字 符 串 等 )， 也 支持 数组 和 记录 类 型 ， 包 括 氛 套 类 型 。 更 重要 的 是 ， 它 是 一 种 列 
式 文件 格式 ， 也 就 是 说 许多 记录 的 某 个 列 的 值 在 磁盘 上 是 连续 存储 在 一 起 的 〈 如 图 10-2 所 
示 )。 这 种 物理 数据 布局 大 幅 提升 了 数据 编码 /压缩 的 效率 ， 并 且 通 过 减少 读 取 / 反 序列 
化 数据 的 量 大 幅 减 少 了 查询 时 间 (http://the-paper-trail.org/blog/columnar-storage/)。Parquet 
中 可 以 为 每 列 指定 不 同 的 编码 /压缩 机 制 ， 每 列 都 支持 run-length 编码 、dictionary 编码 和 
delta 编码 。 












































Parquet 在 提高 性 能 方面 另 一 个 有 用 的 功能 是 谓词 下 推 (predicate pushdown)。 谓 词 是 一 
个 表达 式 或 者 函数 ， 它 的 值 可 以 根据 数据 记录 (也 就 是 SQL WHERE 子 句 中 的 表达 式 ) 计 
算出 来 ,要么 为 true， 要 么 为 false。 在 前 面 我 们 的 CFTR 查询 中 ，Spark 必须 把 每 个 
AlignmentRecord 全 部 反 序列 化 /物化 后 才能 再 确定 每 个 AlignmentRecord 是 否 通过 谓词 测 
试 。 这 会 导致/O 和 CPU 时间 的 大 量 浪 费 。 我 们 可 以 在 Parquet reader 实现 中 指定 一 个 谓 
词类 ， 这 样 在 物化 整个 记录 前 我 们 可 以 只 反 序列 化 那些 用 于 判断 的 必要 列 。 
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编码 


回回 回国 国 四 回回 加 回回 回回 面 加 
MO 














10-2: 面向 行 和 面向 列 的 布局 差异 








比如 要 利用 谓词 下 推 技 术 实 现 我 们 的 CFTR 查询 ， 需 要 先 定义 一 个 合适 的 谓词 类 ， 它 用 于 
测试 AlLignmentRecord 是 否 是 目标 位 点 : 

import org.apache.parquet.filter2.dsl.Dsl._ 

val chr = BinaryColumn("contigName") 

val start = LongColumn("start") 


val end = LongColumn("end") 


val cftrLocusPredicate = ( 
chr === "7" && start <= 117149189 && end >= 117149189) ©@ 


@ 想 了 解 DSL 的 更 多 信息 ， 请 参阅 文档 。 请 注意 ， 我 们 使 用 === 而 不 是 ==。 
因为 使 用 了 Parquet 特定 的 功能 ， 所 以 我 们 必须 明确 使 用 Parquet Reader 加 载 数 据 : 





val readsRDD = sc.loadParquetAlignments( 
"/user/ds/genomics/reads/HG00103", 
Some(cftrLocusPredicate)) 


上 述 代码 执行 速度 应 该 更 快 ， 因 为 它 不 再 需要 全 部 物化 所 有 的 AlignmentRecord 对 象 。 








10.3 从 ENCODE 数 据 预测 转 录 因 子 结 合 位 点 


本 例 中 我 们 将 用 公开 的 序列 特征 数据 来 构建 一 个 简单 的 转录 因子 结合 位 点 模型 。 转 录 因 子 
(TF) 是 染色 体 中 与 特定 的 DNA 序列 结合 的 蛋白 质 ， 它 有 助 于 控制 不 同 基因 的 表达 。 因 
此 ， 转 录 因 子 是 确定 一 个 细胞 的 基因 型 的 关键 ， 许 多 生理 学 和 疾病 过 程 都 离 不 开 它 。 染 色 
质 免 疫 沉 淀 测序 (ChIP-seq) 是 一 种 基于 NGS 的 实验 ， 可 以 在 基因 组 范围 内 描述 对 某 个 
TF 在 某 个 细胞 /组 织 类 型 中 的 位 点 结合 。 然 而 ，ChIP-sedq 成 本 高 技术 难度 大 ， 而 且 需 要 对 
每 种 组 织 和 TF 的 成 对 组 合 进行 单独 实验 。 相 比 而 言 ，DNase-sedq 实验 寻找 染色 体 组 内 的 开 
放 的 染色 质 ， 它 对 每 种 组 织 类 型 只 做 一 次 。 与 对 每 个 组 织 /TF 组 合 都 进行 基于 ChIP-seq 的 
TF 结合 位 点 实验 不 同 ， 我 们 希望 只 要 能 拿 到 DNase-seq 数据 就 可 以 预测 新 组 织 类 型 中 的 
TF 结合 位 点 。 



























































更 具体 地 ， 我 们 将 使 用 DNase-seq 数据 、 已 知 序列 主题 数据 (来源 于 HT-SELEX,， http:// 
www.cell.com/cell/fulltext/S0092-8674(12)01496-1) 和 其 他 的 一 些 公开 的 ENCODE 数据 集 
(https://www.encodeproject.org/) 来 预测 CTCF 转录 因子 的 结合 位 点 。 我 们 选取 了 6 种 有 
DNase-seq 和 CTCEF ChIP-seq 数据 的 不 同 细胞 类 型 。 训 练 样本 为 DNA 酶 超 敏 (HS) 峰值， 
TF 为 绑 定 /未 绑 定 的 二 进 制 标签 来 自 ChIP-seq 数据 。 


帘 理 整个 数据 流 : 主要 的 训练 /测试 示例 将 从 DNase-seq 数据 中 导出 。 开 放 染 色 质 的 每 个 
区 域 (基因 组 上 的 区 间 ) 将 用 于 预测 特定 组 织 类 型 中 的 特定 TF 是 否 被 绑 定 在 那里 。 为 此 ， 
我 们 在 空间 上 将 ChIP-seq 数据 加 入 DNase-seq 数据 中 ， 每 个 重 琶 都 是 DNase-seq 对 象 的 正 
标签 。 最 后 ， 为 了 提高 预测 的 准确 率 ， 我 们 在 DNase-seq 数据 的 每 个 区 间 生 成 了 一 些 额 外 
的 特征 ， 比 如 保存 得 分 (来 自 phyloP 数据 集 )， 到 转录 起 始 位 点 的 距离 (使 用 Gencode 数 
据 集 )， 以 及 DNase-seq 区 间 的 序列 与 TF 的 已 知 结合 基 序 (使 用 凭 经 验 确定 的 位 置 权 重 矩 
阵 ) 相 匹 配 的 程度 如 何 。 几 乎 在 任何 情况 下 ， 通 过 执行 空间 连接 (可 能 的 聚合 ) 都 可 以 将 
这 些 特征 添加 到 训练 示例 中 。 






























































我 们 将 使 用 如 下 细胞 系数 据 。 


。 GM12878 
被 广泛 研究 的 淋巴 细胞 系 (lymphoblastoid cell line)。 


。 K562 
慢性 粒 细胞 白血病 细胞 系 (female chronic myelogenous leukemia)。 


。 BJ 
皮肤 成 纤维 细胞 (skin fibroblast) 。 


。 HEK293 
胚 肾 细 胞 系 (embryonic kidney ) 。 
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。 H354 
脑 胶 质 瘤 (glioblastoma)。 


。 HepG2 
肝 细 胞 癌 (hepatocellular carcinoma ) 。 


首先 我 们 把 .narrowPeak 格式 的 细胞 系 DNase 数据 下 载 下 来 : 


hadoop fs -mkdir /user/ds/genomics/dnase 
curl -s -L <...DNase URL...> \@O 


| gunzip \ @ 
| hadoop fs -put - /user/ds/genomics/dnase/sample.DNase.narrowPeak 


[...] 
@ 实际 的 curl 命令 请 参考 本 书 附带 的 GitHub 资料 库 代码 。 


@ 流 式 压缩 。 











接 下 来 下 载 CTCF 转录 因子 的 ChIP-seq 数据 和 GENCODE 数据 。ChIP-seq 数据 也 是 .narrowPeak 
格式 的 ， 而 GENCODE 数据 是 GTF 格式 的 。 





hadoop fs -mkdir /user/ds/genomics/chip-seq 
curl -s -L <...ChIP-seq URL...> \@O 


| gunzip \ 
| hadoop fs -put - /user/ds/genomics/chip-seq/samp.CTCF.narrowPeak 


[...] 


@ 实际 的 curl 命令 请 参考 本 书 附带 的 GitHub 资料 库 代 码 。 


注意 ， 在 把 数据 写 到 HDFS 上 的 同时 对 数据 流 用 gunzip 解压 。 现 在 我 们 下 载 实 际 的 人 类 基 
因 组 序列 ， 它 们 被 用 来 评估 位 置 权重 矩阵 ， 以 生成 其 中 一 个 特征 : 
# gh19 人 类 基因 组 序列 


curl -s -L-0\ 
"http://hgdownload.cse.ucsc.edu/goldenpath/hg19/bigzips/hg19.2bit" 



































最 后 ，conservation 数据 是 fixed wiggle 格式 的 ， 不 能 把 它 作 为 一 个 可 拆 分 文件 进行 读 取 。 
具体 而 言 ， 在 任意 位 置 输入 文件 并 开始 读 取 记录 非常 困难 ， 因 此 它 不 是 “可 分 割 的 "。 这 
是 因为 摆动 格式 在 分 布 数据 记录 时 ， 使 用 了 描述 当前 基因 组 位 置 的 元 数据 。 所 以 在 读 取 色 
度 坐 标 元 数据 时 ， 任 务 无 法 知道 在 文件 中 要 往 后 读 多 少数 据 ， 我 们 要 在 往 HDFS 上 写 数据 
的 同时 使 用 BEDOPS 工具 ， 将 .wigFix 转换 成 BED 格式 。 



































hadoop fs -mkdir /user/ds/genomics/phylop 
for i in $(seq 1 22); do 
curl -s -L <...phyloP.chrs$si URL... > \O 
| gunzip \ 
| wig2bed -d\@@ 
| hadoop fs -put - "/user/ds/genomics/phylop/chr$i.phyloP.bed" 
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done 


@ 实际 的 curl 命令 请 参考 本 书 附带 的 GitHub 资料 库 代 码 。 
@ 这 个 命令 来 自 BEDOPS CLI。 不 过 ,编写 自己 的 Python 脚本 也 很 容易 。 


最 后 ， 我 们 在 Spark shell 中 将 phyloP 数据 从 基于 文本 的 .bed 格式 一 次 性 转换 成 Parquet 
格式 。 











import org.bdgenomics.adam.rdd.ADAMContext._ 
(sc 
.loadBed("/user/ds/genomics/phylop_text") 
.SaveAsParquet("/user/ds/genomics/phylop")) 


我 们 想 从 所 有 原始 数据 生成 如 下 模式 的 训练 数据 : 


(1) 染色 体 (chromosome) 

(2) 开始 位 置 (start) 

(3) 结束 位 置 (end) 

(4) 最 高 TF 主题 PWM 分数 (TF motif PWM score) 
(5) 平 均 phyloP 保护 分 数 (phyloP conservation score) 
(6) 最 小 phyloP 保护 分 数 

(7) 最 大 phyloP 保护 分 数 

(8) 到 最 近 转 录 起 始 位 点 (TSS) 的 距离 

(9) 转录 因子 类 型 (TF identity， 本 例 中 一 直 是 CTCF) 
(10) 细胞 系 (cell line) 

(11) 转录 因子 结合 状态 (布尔 值 ， 目 标 变量 ) 





这 个 数据 集 可 以 很 容易 地 转换 成 RDD[LabeledPoint]， 然 后 在 机 器 学 习 库 中 使 用 。 我 们 需要 
对 多 个 细胞 系 生成 数据 ， 因 此 对 每 个 细胞 系 都 定义 一 个 RDD， 然 后 再 将 它们 连接 在 一 起 : 























val ceLLLines = Vector( 
"GM12878", "K562", "BJ", "HEK293", "H54", "HepG2") 

val dataByCellLine = cellLines.map(cellLine => { // 对 每 个 细胞 系 …… 
1 生成 一 个 RDD 以 便 转换 成 RDD[LabeledPoint] 


}) 

// 把 RDD 串 在 一 起 之 后 输入 给 MLLib 等 
开始 之 前 ， 我 们 先 加 载 在 整个 计算 过 程 中 都 要 用 到 的 一 些 数据 ， 包 括 会 话 转录 开始 位 点 、 人 
类 基因 组 参考 序列 和 来 自 HT-SELEX (http:/www.cell.com/cell/fulltext/S0092-8674(12)01496-1) 
的 CTCF PWM。 我 们 还 定义 了 一 些 用 于 生成 PWM 和 TSS 功能 的 实用 函数 : 

















val hdfsprefix = "/user/ds/genomics" 
val localprefix = "/user/ds/genomics" 
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// 为 计算 特征 设置 一 些 广播 变量 ， 以 及 定义 一 些 功能 函数 


// 加 载 人 类 基因 组 参考 序列 
val bHg19Data = sc.broadcast( 
new TwoBitFile( 
new LocalFileByteAccess( 
new File(Paths.get(localPrefix, "hg19.2bit").toString)))) 





拘 

















// 国 数 用 了 本 位 点 

// 傻瓜 办 法 ;读者 的 练习 题 : 让 这 个 函数 变 得 更 快 

def 1 Vector[Long]，query: Long): Long = { 
loci.map(x => math.abs(x - query)).min 








} 


// https://dx.doi.org/10.1016/j.cell.2012.12.009 的 CTCF PWM 

// 使 用 genomics/src/main/python/pwm.py 生 成 

val bpPwmData = sc.broadcast(Vector( 
Map('A'->0.4553,'C'->0.0459,'G'->0.1455,'T'->0.3533), 
Map('A'->0.1737,'C'->0.0248,'G'->0.7592,'T'->0.0423), 
Map('A'->0.0001,'C'->0.9407,'G'->0.0001,'T'->0.0591), 
Map('A'->0.0051,'C'->0.0001,'G' ->0.9879,'T'->0.0069), 
Map('A'->0.0624,'C'->0.9322,'G'->0.0009,'T'->0.0046), 
Map('A'->0.0046,'C'->0.9952,'G'->0.0001,'T'->0.0001), 
Map('A'->0.5075,'C'->0.4533,'G'->0.0181,'T'->0.0211), 
Map('A'->0.0079,'C'->0.6407,'G'->0.0001,'T'->0.3513), 
Map('A'->0.0001,'C'->0.9995,'G'->0.0002,'T'->0.0001), 
Map('A'->0.0027,'C'->0.0035,'G'->0.0017,'T'->0.9921), 
Map('A'->0.7635,'C'->0.0210,'G' ->0.1175,'T' ->0.0980), 
Map('A'->0.0074,'C'->0.1314,'G' ->0.7990,'T' ->0.0622)， 
Map('A'->0.0138,'C'->0.3879,'G'->0.0001,'T'->0.5981), 
Map('A'->0.0003,'C'->0.0001,'G'->0.9853,'T'->0.0142), 
Map('A'->0.0399,'C'->0.0113,'G'->0.7312,'T'->0.2177), 
Map('A'->0.1520,'C'->0.2820,'G'->0.0082,'T'->0.5578), 
Map( 'A'->0.3644,'C'->0.3105,'G'->0.2125,'T' ->0.1127))) 


// 根据 TF _ PWM 计算 一 个 主题 分 数 
def scorepWM(ref: String): Double = { 
val scorel = (ref.sliding(bPpwmData.value.length) 
.map(s => { 
s.zipWithIndex.map(p => bPpwmData.value(p._2)(p._1)).product}) 
.max) 
val rc = Alphabet.dna.reverseComplementExact(ref) 
val score2 = (rc.sliding(bpwmData.value.length) 
.map(s => { 
s.zipWithIndex.map(p => bPpwmData.value(p._2)(p._1)).product}) 
.max) 
math.max(score1l, score2) 








. 


// 构建 一 个 in-memory 的 数据 结构 来 计算 到 TSs 的 距离 
// 本 质 上 我 们 在 这 里 手工 实现 了 一 个 广播 连接 
val tssRDD = ( 
sc.LoadFeatures( 
Paths.get(hdfsprefix, "gencode.v18.annotation.gtf").toString).rdd 








.filter(_.getFeatureType == "transcript") 
.map(f => (f.getContigName, f.getStart))).rdd 
.filter(_.getFeatureType == "transcript") 
-map(f => (f.getContigName, f.getStart))) 
// 这 个 广播 变量 将 只 有 “连接 ”中 被 广播 的 那 一 边 

val bTssData = sc.broadcast(tssRDD 
// 按 contigName 分 组 
.groupBy(_._1) 
// 为 每 个 染色 体 创建 T55 位 点 的 Vector 
.map(p => (p._1, p._2.map(_._2.toLong).toVector)) 
// 使 用 collect 方 法 将 数据 取 回 到 本 地 内 存 中 ， 再 广播 出 去 
.collect().toMap) 


// 加 载 保存 的 数据 ， 独 立 于 细胞 系 
val phyLopRDD = ( 
sc.loadParquetFeatures(Paths.get(hdfsprefix, "phylop").toString).rdd 
// 清理 phyLoP 数 据 中 的 一 些 不 规则 记录 
.filter(f => f.getStart <= f.getEnd) 
.map(f => (ReferenceRegion.unstranded(f), f))).rdd 
// 清理 phytoP 数 据 中 的 一 些 不 规则 记录 
.filter(f => f.getStart <= f.getEnd) 
.map(f => (ReferenceRegion.unstranded(f), f))) 
























































现在 已 经 加 载 了 训练 示例 所 需 的 数据 ， 我 们 定义 一 个 在 每 个 细胞 系 上 进行 数据 计算 的 
“loop” 循 环 体 。 注 意 ， 读 取 的 是 文本 形式 的 ChIP-seq 和 DNase 数据 ， 因 为 数据 集 不 是 特 
别 大 ， 所 以 对 性 能 影响 不 大 。 


首先 我 们 把 DNase 和 ChIP-seq 数据 加 载 为 RDD: 


val dnasepPath = ( 
Paths.get(hdfsPrefix，s"dnase/SceLLLine.DNase.narrowPeak'") 
.toString) 
val dnaseRDD = (sc.LoadFeatures(dnasePath) .rdd 
.map(f => ReferenceRegion.unstranded(f)) 
.map(r => (T，r))) O 


val chipseqPath = ( 
Paths.get(hdfsprefix, s"chip-seq/$cellLine.ChIP-seq.CTCF.narrowPpeak") 
.toString) 
val chipseqRDD = (sc.LoadFeatures(chipseqPath) .rdd 
.map(f => ReferenceRegion.unstranded(f)) 
.map(r => (r, rr))) O 


@ RDD[(ReferenceRegion, ReferenceRegion)] 


核心 对 象 是 一 个 DNase 高 敏 位 点 ， 它 由 dnaseRDD 中 的 nh 对 象 所 定义 。 交 
又 ChIP-seq 峰值 位 点 是 由 chipseqRDD 中 的 ale 所 定义 ， 它 具有 TF 结合 位 点 。 
因此 它 被 标记 为 真 ， 其 余 位 点 被 标记 为 假 。 这 是 使 用 ADAM API 人 的 一 维 空间 连接 原 

语 完成 的 ， 连 接 功 能 需要 一 个 以 ReferenceRegion 作为 key 的 RDD， 并 根据 通常 的 连接 语 
义 〈 例 如 ， 是 内 部 连接 还 是 外 部 连接 ) 产生 具有 交叉 区 域 的 元 组 。 
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val dnaseWithLabelRDD = ( 
LeftOuterShuffleRegionJoin(bHg1i9Data.value.sequences, 1000000, sc) 
.partitionAndJoin(dnaseRDD, chipseqRDD) © 
.map(p => (p._1, p. 2.size)) @ 
.reduceByKey(_ + _)®© 
.map(p => (p._1, p. 2 > 0)) @ 
.map(p => (p._1, p))) © 


© 


RDD[ (ReferenceRegion, Option[ReferenceRegion])]: 里 有 一 个 Option， 因 为 我 们 正 
在 使 用 左 外 连接 。 

@ RDD[(ReferenceRegion，Int)]: 0 表示 None，1 表示 成 功 匹 配 。 
@ 聚集 所 有 可 能 交 又 DNase 位 点 的 TF 结合 位 点 。 
@ 
© 























正 值 表示 数据 集 之 间 有 重合 ， 因 此 是 TF 结合 位 点 。 
把 ReferenceRegion 变 成 key 来 为 下 一 个 连接 准备 RDD。 





另外 ， 我 们 通过 连接 DNase 数据 和 phyloP 数据 来 计算 保存 特征 : 


/ 给 定位 点 上 的 phyloP 值 并 计算 

def aggPhylop(values: Vector[Double])= { 
val avg = vaLues.sum / vaLues.Length 
val m = values.min 
val M = values.max 
(avg, m, M) 





} 
val dnaseWithPphylopRDD = ( 
LeftOuterShuffleRegionJoin(bHg1i9Data.value.sequences, 1000000, sc) 
.partitionAndJoin(dnaseRDD, phylopRDD) © 
.filter(!_. 2.isEmpty) 外 
.map(p => (p._1, p._2.get.getScore.doubleValue)) 
.groupByKey() © 
.map(p => (p._1, aggPhylop(p._2.toVector)))) @ 


RDD[ (ReferenceRegion, Option[Feature])]。 


0 
@ 过 滤 缺 少 phyloP 数据 的 位 点 。 
© 
@ 





将 每 个 位 点 的 所 有 phyloP 值 汇总 在 一 起 。 
RDD[ (ReferenceRegion, (Double, Double, Double))]。 











现在 我 们 计算 每 个 DNase 峰值 的 最 终 特 征集 合 ， 通 过 将 上 面 的 两 个 RDD 连接 在 一 起 ， 并 
通过 与 位 点 的 映射 添加 一 些 附加 特征 : 





T 





// 构建 最 终 训 练 样本 RDD 
val exampLesRDD = ( 
InnerShuffleRegionJoin(bHg1i9Data.value.sequences, 1000000, sc) 目 
.partitionAndJoin(dnaseWithLabelRDD, dnaseWithPhylopRDD) 
.map(tup => { 
val seq = bHg1i9Data.value.extract(tup. 1. 1) @ 
(tup._1, tup. 2, seq)}) 





filter(!_. 3.contains("N")) © 

map(tup => { @ 

val region = tup._ 1. 1 

val label = tup. 1._ 2 

val contig = region.referenceName 

val start = region.start 

val end = region.end 

val phylopAvg = tup. 2._1 

val phylopMin = tup. 2. 2 

val phylopMax = tup. 2. 3 

val seq = tup._3 

val pwmScore = ScorePNM(seq) 

val closestTss = math.min( 
distanceToClosest(bTssData.value(contig), start), 
distanceToClosest(bTssData.value(contig), end)) 

val tf = "CTCF" 

(contig, start, end, pwmScore, phylopAvg, phylopMin, phylopMax, 
closestTss, tf, cellLine, label)})) 





@ 内 部 连接 确保 我 们 得 到 定义 完善 的 特征 向 量 。 

@ 提取 基因 组 中 与 该 位 点 对 应 的 基因 组 序列 ， 并 附加 到 元 组 中 。 
@ 丢弃 任何 基因 组 序列 模糊 的 位 点 。 

@ 这 里 是 我 们 最 终 建立 的 特征 向 量 。 























这 个 最 终 的 RDD 在 遍历 细胞 系 的 每 次 循环 中 都 要 计算 一 次 。 最 后 我 们 把 每 个 细胞 系 的 


RDD 结合 


在 一 起 ， 并 且 缓 存在 内 存 中 为 模型 训练 做 准备 : 


证 





val preTrainingData = dataByCellLine.reduce(_ ++ _) 


preTr 


preTr 
preTr 


ainingData.cache() 


ainingData.count() // 802059 
ainingData.filter(_._12 == true).count() // 220344 


现在 为 了 训练 分 类 器 ， 我 们 可 以 对 preTrainingData 中 的 数据 进行 归 一 化 并 将 其 转换 成 
RDD[LabeledPoint]， 详 细 情 况 可 以 参考 第 4 章 。 注 意 ， 这 里 要 执行 交叉 验证 ， 应 该 在 每 个 


fold 中 取 H 


10.4 








一 个 细胞 系 用 于 验证 。 


查询 1000 Genomes 项 目 中 的 基因 型 








在 这 个 示例 中 ， 我 们 要 导入 全 部 1000 Genomes 基因 型 数据 集 。 我 们 先 把 原始 数据 下 载 下 








来 并 直接 存放 到 HDFS 上 ， 解 压 ， 然 后 运行 ADAM 作业 将 数据 转 成 Parquet 格式 。 下 面 的 
示例 命令 应 该 针对 所 有 染色 体 运行 ， 它 在 整个 集群 中 并 行 执行 : 


curl 




















-s -L ftp://.../1000genomes/.../chri.vcf.gz \ @ 


| gunzip \ 
| hadoop fs -put - /user/ds/genomics/1kg/vcf/chri.vcf @ 


adam/bin/adam-submit --master yarn --deploy-mode client \ 
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--driver-memory 8G --num-executors 192 --executor-cores 4 和 
--executor-memory 16G \ 


-- 
vcf2adam /user/ds/genomics/1kg/vcf /user/ds/genomics/1kg/parquet 
@ 实际 的 curl 命令 请 参考 本 书 附 带 的 GitHub 资料 库 代 码 。 
@ 将 文本 VCF 文件 复制 到 Hadoop 上 。 
接着 在 ADAM shell 中 加 载 并 检查 对 象 ， 代 码 如 下 : 











import org.bdgenomics.adam.rdd.ADAMContext._ 


val genotypesRDD = sc.loadGenotypes("/user/ds/genomics/1kg/parquet") 
val gt = genotypesRDD.rdd.first() 











例如 对 每 个 与 CTCF 绑 定点 重 亚 的 基因 变 体 ， 计 算 在 所 有 样本 上 少数 等 位 基因 出 现 的 频 
率 。 本 质 上 ， 我 们 需要 把 上 一 节 中 的 CTCF 数据 和 1000 Genomes 项 目 中 的 基因 型 数据 进 
行 联结 。 在 之 前 TF 结合 位 点 的 例子 中 ， 我 们 展示 了 如 何 直接 使 用 ADAM 连接 机 制 。 然 而 
在 很 多 情况 下 ， 当 通过 ADAM 加 载 数据 时 ， 我 们 获得 了 一 个 实现 GenomicRDD 特征 的 对 象 ， 
它 具 有 一 些 内 置 的 过 滤 和 连接 方法 ， 如 下 所 示 : 























import org.bdgenomics.adam.models.ReferenceRegion 
import org.bdgenomics.adam.rdd.InnerTreeRegionJoin 
val ctcfRDD = (sc.LoadFeatures( 
"/user/ds/genomics/chip-seq/GM12878.ChIP-seq.CTCF.narrowPeak").rdd 
.map(f => {©@ 
f.setContigName(f.getContigName.stripprefix("chr")) 
下 
}) 
.map(f => (ReferenceRegion.unstranded(f), f))) 
val keyedGenotypesRDD = genotypesRDD.rdd.map(f => (ReferenceRegion(f), f)) 
val filteredGenotypesRDD = ( @ 
InnerTreeRegionJoin().partitionAndJoin(ctcfRDD, keyedGenotypesRDD) 
.map(_._2)) 
filteredGenotypesRDD.cache() © 
filteredGenotypesRDD.count() // 408107700 





@ 我 们 必须 执行 这 个 映射 ， 因 为 CTCF 数据 使 用 “chrl1”， 而 基因 型 数据 使 用 “1” 来 指 代 
相同 的 染色 体 。 


@ 使 用 内 连接 进行 过 滤 。 我 们 广播 CTCF 数据 ， 因 为 它 比 较 小 。 
@ 由 于 计算 量 大 ， 我 们 会 缓存 过 滤 后 的 数据 ， 以 避免 重新 计算 。 








我 们 还 需要 一 个 输入 为 Genotype 并 计算 参考 / 禁 换 等 位 基因 个 数 的 函数 : 


import scala.collection.JavaConverters._ 

import org.bdgenomics.formats.avro.{Genotype, Variant, GenotypeAllele} 

def genotypeToAlleleCounts(gt: Genotype): (Variant, (Int, Int)) = { 
val counts = gt.getAlleles.asScala.map(allele => { allele match { 





case GenotypeAllele.REF => (1, 0) 

case GenotypeAllele.ALT => (0, 1) 

case _ => (0, 0) 
}}).reduce((x, y) => (x._1 + y. 1, x. 2 + y. 2)) 
(gt.getVariant, (counts. 1, counts. 2)) 


} 


最 后 生成 一 个 RDD[ (Variant，(Int，Int))] 并 进行 汇 


[CA : 





val counts = filteredGenotypesRDD.map(gt => { @ 
val counts = gt.getAlleles.asScala.map(allele => { allele match { 
case GenotypeAllele.REF => (1, 0) 
case GenotypeAllele.ALT => (0, 1) 
case _ => (0, 0) 
}}).reduce((x, y) => (x._ 1 + y. 1, x. 2 + y. 2)) 
(gt.getVariant, (counts._1, counts. 2)) 
}) 
val countsByVariant = Counts.reduceByKey( 
(x, y) => (x._1 + y. 1, x. 2 + y. 2)) 
val mafByVariant = countsByVariant.map(tup => { 
val (v, (r, a)) = tup 
valL n=r+a 
(v, math.min(r, a).toDouble / n) 


}) 








@ 我 们 编写 的 这 个 函数 是 匿名 的 ， 因 为 在 使 用 shell 的 过 程 中 可 能 会 遇 到 闭 包 序列 化 的 问 
题 。 Spark 将 尝试 序列 化 shell 中 的 所 有 内 容 ， 而 这 可 能 会 出 错 。 作 为 提交 的 任务 运行 


时 ， 被 命名 的 函数 应 该 工作 正常 。 


RDD countsByVariant 存储 类 型 为 (Variant，(Int，Int)) 的 对 象 ， 其 中 元 组 的 第 一 个 成 员 
是 特定 的 基因 组 变 体 ， 第 二 个 成 员 是 一 对 计数 : 第 一 个 计数 是 参考 等 位 基因 的 数量 ， 而 第 
二 个 是 所 看 到 的 候补 等 位 基因 的 数目 。RDD mafByVariant 存储 类 型 为 (Variant，Double) 








的 对 象 ， 其 中 第 二 个 成 员 来 自 计算 countsByvariant 的 键 - 值 对 得 到 的 次 要 等 位 基 





率 。 举 个 例子 


scala> countsByVariant.first. 2 
res21: (Int, Int) = (1655,4) 


scala> val mafExampLe = mafByVariant.first 
mafExample: (org.bdgenomics.formats.avro.Variant, Double) = [...] 


scala> mafExample._1.getContigName -> mafExample._1.getStart 
res17: (String, Long) = (X,149849811) 


scala> mafExample. 2 
res18: Double = 0.0024110910186859553 








因 频 





遍历 整个 数据 集 是 个 大 型 操作 。 因 为 我 们 只 用 到 基因 型 数据 中 的 几 个 字段 ， 所 以 进行 谓词 
下 推 和 投影 肯定 是 有 帮助 的 ， 这 可 以 作为 练习 留 给 读者 自行 完成 。 如 有 果 设 有 合适 的 群集 ， 





























请 尝试 在 数据 文件 的 子 集 上 运行 计算 。 








基因 数据 分 析 和 BDG 项 














209 


10.5 “小 结 


许多 基因 学 方面 的 计算 都 很 适合 用 Spark 计算 模式 处 理 。 如 果 进 行 实地 分 析 ， 那 么 ADAM 
这 样 的 项 目 最 有 价值 的 贡献 就 是 提供 了 一 组 表示 底层 分 析 对 象 ( 及 其 转换 工具 ) 的 Avro 
模式 。 本 章 中 我 们 看 到 ， 只 要 将 数据 转换 成 相应 的 Avro 模式 ， 许 多 大 规模 计算 就 比较 容 
易 表达 和 并 行 化 。 























虽然 基于 Hadoop/Spark 进行 科学 研究 的 工具 可 能 相对 较 少 ， 但 现在 已 经 有 一 些 现成 的 项 
目 可 用 ， 我 们 不 必 再 重新 发 明 轮 子 。 本 章 我 们 研究 了 ADAM 提供 的 核心 功能 ， 但 这 个 项 
目 己 经 实现 了 整个 GATK 最 佳 实践 中 的 管道 任务 ， 包 括 BQSR、 插 入 和 缺失 突变 重新 比 
对 、 去 重 。 除 了 ADAM 之 外 ,许多 机 构 都 已 加 入 全 球 基因 学 和 健康 联盟 ， 这 个 组 织 也 开 
始 提供 它 自己 的 基因 分 析 模 式 。Broad Institute 目前 正在 使 用 Spark 开发 主要 的 软件 项 目 ， 
包括 最 新 版 本 的 GATK4 (https://github.com/broadinstitute/gatk) 和 一 个 名 为 Hail 的 新 项 目 
(https://github.com/hail-is/hail) ， 用 于 大 规模 人 口 遗 传 学 的 计算 。 西 奈 山 医学 院 的 振荡 实验 
室 开 发 了 一 组 主要 用 于 致癌 基因 变 体 研究 的 Guacamole 工具 (https://github.com/hammerlab/ 
guacamole)。 所 有 这 些 工具 都 是 开源 的 ， 大 家 可 以 自由 使 用 。 如 果 你 在 工作 中 用 到 了 这 些 
工具 ， 别 忘 了 把 改进 建议 也 回馈 给 社区 哦 | 
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第 11 章 
基于 PySpark 和 Thunder 的 神经 图 像 
数据 分 析 





作者 : 于 里 . 莱 瑟 森 


人 类 大 脑 像 一 坨 凉 粥 ， 但 我 们 对 此 并 不 感 兴 趣 。 
让 兰 .图 灵 


随 着 影像 设备 和 自动 化 领域 的 技术 发 展 ， 大 脑 功 能 数据 也 急剧 增长 。 过 去 的 实验 只 能 靠 在 
头 上 放 几 个 电极 来 收集 大 脑 产 生 的 时 间 序 列 数据 ， 或 者 只 能 拿 到 大 脑 的 几 张 静态 截面 图 
像 ， 而 今天 的 技术 能 够 在 一 个 不 小 的 机 体 活 跃 区 域 里 ， 在 大 量 神 经 元 上 采集 大 脑 话 动 数 
据 。BRAIN 计划 (https://www.braininitiative.nih.gov/) 是 受 美国 政府 资助 的 科研 计划 ， 吓 
在 推动 技术 进步 ， 并 且 制 定 了 宏伟 的 目标 ， 其 中 一 个 目标 是 在 很 长 一 段 时 间 内 同时 记录 老 
鼠 大 脑 内 每 个 神经 元 的 电子 活动 。 测 量 技术 方面 的 突破 固然 重要 ， 但 我 们 认为 该 计划 产生 
的 数据 量 将 开创 生物 学 研究 的 新 模式 。 



































本 章 将 介绍 PySpark API (https://spark.apache.org/docs/latest/api/python/)。 有 了 该 API， 我 们 可 以 
通过 Python 与 Spark 交互 。 本 章 还 会 介绍 Thunder 项 目 (http://thunder-project.org/)， 它 构建 在 
PySpark 之 上 ， 目 的 是 处 理 海 量 时 间 序 列 数据 ， 特 别 是 处 理 神 经 影像 数据 。PySpark 是 一 个 特 
别 灵 活 的 工具 ， 可 以 帮 有 我 们 进行 探索 式 的 大 数据 分 析 ， 它 紧密 集成 PyData 生态 系统 的 其 他 
工具 ， 包 括 可 视 化 工具 matplotlib， 甚 至 是 “可 执行 文档 ”工具 IPython Notebook (Jupyter) 。 
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利用 这 些 工具 可 以 在 一 定 程 度 上 了 解 斑 马 鱼 的 大 脑 结 构 。 利 用 Thunder 可 以 对 斑马 鱼 大 脑 


的 不 同 


区 域 〈 代 表 不 同 神经 元 群 组 ) 进行 聚 类 ， 这 样 就 可 以 找到 斑马 鱼 随时 间 变 化 的 大 脑 








活动 模式 。Thunder 是 建立 在 PySpark RDD API 上 的 ， 我 们 将 继续 使 用 它 。 


11.1 PySpark 简 介 


Python 具有 高 级 语法 并 且 有 很 多 工具 包 可 用 ， 所 以 很 多 数据 科学 家 都 喜欢 用 Python。 虽 然 
传统 上 Python 语言 很 难 和 JVM 集成 ， 但 鉴于 Python 对 于 数据 分 析 的 重要 性 ，Spark 生态 
系统 开始 致力 于 开发 Spark 的 Python API。 

















在 科 


方面 





Python 与 科学 计算 和 数据 科学 
学 计算 和 数据 科学 领域 ， 人 们 更 喜欢 Python 工具 。 许 多 基于 MATLAB、R 或 


Mathematica 的 传统 应 用 都 迁移 到 Python 之 上 了 。 完 其 原因 ， 我们 总 结 出 如 下 几 个 


。 Python 是 一 门 高 级 语言 ， 使 用 简单 ， 学 起 来 也 容易 ; 

。 Python 包含 了 大 量 的 工具 包 ， 从 小 众 的 数值 计算 到 网 页 抓 取 工具 再 到 数据 可 视 化 工 
具 ， 它 无 所 不 包 ; 

。 Python 可 以 便捷 地 和 C/C++ 进行 交互 ,这 样 人 们 就 可 以 使 用 C/C++ 的 高 性 能 工具 包 ， 
比如 BLAS/LAPACK/ATLAS 等 。 


这 里 有 几 个 工具 尤其 需要 读者 记 住 。 
。 Numpy/scipy/matplotlib 
这 三 个 工具 提供 了 MATLAB 的 典型 功能 ， 和 包括 快速 矩阵 运算 、 科 学 计算 函数 ， 还 
提供 了 绘图 工具 ， 这 些 绘图 工具 被 广泛 使 用 ， 其 思想 也 源 于 MATLAB。 
。 pandas 
该 工具 的 功能 和 R 的 data.frame 类 似 ， 但 启动 效率 往往 要 比 data.frame 高 不 少 。 
。 scikit-learn/statsmodels 
这 两 个 工具 提供 了 高 质量 的 机 器 学 习 算 法 (分 类 /回归 、 聚 类 、 矩 阵 分 解 等 ) 的 实 
现 和 统计 模型 实现 。 
。 nltk 
一 个 深 受 欢迎 的 自然 语言 工具 。 
可 以 在 GitHub 上 的 awesome-python 代码 库 (https://github.com/vinta/awesome-python) 
上 找到 大 量 其 他 Python 工具 包 。 
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启动 PySpark 与 启动 Spark 一 样 : 


export PYSPARK_DRIVER_PYTHON=ipython # PySpark 也 可 使 用 IPython shell 
export PYSPARK_PYTHON=path/to/desired/python # 在 工作 节点 上 
pyspark --master ... --num-executors ... © 





@ pyspark 的 输入 参数 和 Spark 的 spark-submit 以 及 spark-shell 参数 一 样 。 


可 以 用 spark-submit 来 提交 Python 脚本 ，spark-submit 能 根据 脚本 文件 的 扩展 名 .py 来 识 
别 脚 本 。 你 可 以 指定 driver (如 IPython) 和 工作 节点 的 Python 版 本 ; driver 和 工作 节点 的 
版 本 必须 匹配 。 当 Python 脚本 启动 时 ， 它 会 创建 一 个 Python 的 SparkContext 对 象 (命名 
为 sc)， 我 们 通过 该 对 象 和 集群 交互 。 创 建 好 SparkContext 之 后 ，PySpark API 的 用 法 和 
Scala API 非常 类 似 。 比 如 ， 要 加 载 CSV 数据 ， 我 们 可 以 这 样 做 : 





raw_data = sc.textFile('path/to/csv/data') # RDD[string] 
# 对 数据 进行 过 滤 ， 按 辟 号 进行 拆 分 并 解析 浮 点 数 以 得 到 RDD[ List[float]] 
data = (raw_data 
.filter(lambda x: x.startswith("#")) 
.map(Lambda x: map(float, x.split(',')))) 
data.take(5) 


和 Scala RDD API 一 样 ， 我 们 先 加 载 一 个 文本 文件 ， 过 滤 掉 其 中 以 # 开 头 的 行 ， 然 后 将 
CSV 数据 解析 为 一 个 浮 点 数列 表 。 如 在 上 面 的 示例 代码 中 ， 我 们 向 filter 和 map 传递 
国 数 参数 所 示 ，Python 中 把 函数 作为 参数 进行 传递 的 方式 是 非常 灵活 的 。 传 递 函 数 时 需 
要 将 一 个 Python 对 象 作为 输入 并 且 返 回 一 个 Python 对 象 ( 对 于 示例 代码 中 的 filter 函 
数 而 言 ， 返回 值 为 布尔 值 )。 传 递 函 数 时 唯一 的 限制 是 Python 对 象 必须 能 用 cloudpickle 
序列 化 (cloudpickle 包含 了 匿名 lambda 函数 )， 并 且 函 数 闭 包 引 用 的 任何 模块 都 必须 
能 在 Python 执行 器 进程 的 PYTHONPATH 中 找到 。 为 了 确保 Python 执行 器 进程 找到 这 些 模 
块 ， 要 么 在 整个 集群 上 安装 这 些 模 块 并 在 Python 执行 器 进程 的 PYTHONPATH 中 加 入 它们 ， 
要 么 由 Spark 显 式 分 发 相应 的 ZIP/EGG 模块 文件 ， 这 样 Spark 会 在 分 发 之 后 将 它们 加 入 
PYTHONPATH 中 。 显 式 分 发 可 以 通过 调用 sc.addPyFile() 来 实现 。 


















































PySpark RDD 只 是 Python 对 象 的 RDD。 和 Python 列表 一 样 ，PySpark RDD 可 以 存储 混合 
类 型 对 象 〈 因 为 底层 的 所 有 对 象 都 是 Py0bject 类 型 的 ) 。 





深入 PySpark 
为 了 简化 调试 ， 同 时 也 为 了 让 读者 了 解 可 能 的 性 能 陷阱 ， 有 必要 介绍 一 些 PySpark 的 底层 
实现 ， 请 参见 图 11-1。 
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吕 ] Python 咒 JVM 


11-1: PySpark 内 部 架构 











PySpark 的 Python 解释 器 在 启动 时 会 同时 启动 一 个 JVM，Python 解释 器 与 JVM 进程 之 
间 通 过 套 接 字 保 持 通信 。PySpark 利用 Py4J 项 目 来 处 理 Python 解释 器 和 JVM 之 间 的 通 
信 。JVM 作为 实际 的 Spark 驱动 程序 会 加 载 一 个 JavaSparkContext，JavaSparkContext 和 
集群 中 的 Spark 执行 器 通信 。 接 着 ， 对 Sparkcontext 对 象 的 Python API 调用 会 被 翻译 为 对 
JavaSparkContext 对 象 的 Java API 调用 。 举 个 例子 ，PySpark 的 sc. textFile() 实现 将 调用 
分 派 给 javasparkContext 的 .textFtte 方法 ， 该 方法 最 终 与 Spark 执行 器 的 JVM 通信 ， 从 
而 实现 从 HDFS 上 加 载 文本 数据 。 


集群 上 的 Spark 执行 器 为 每 个 CPU 核 启动 一 个 Python 解释 器 ， 并 在 需要 执行 用 户 代码 
时 通过 Unix 管道 stin 以 及 stdout 与 这 个 解释 器 进行 数据 通信 。 在 本 地 PySpark 客户 
端的 Python RDD 对 应 于 本 地 JVM 内 的 一 个 PythonRDD 对 象 。 和 RDD 相关 的 数据 实际 
上 是 以 Java 对 象 的 形式 保存 在 Spark 的 JVM 中 的 。 举 例 来 说 ， 在 Python 解释 器 中 运行 
sc.textFiLe() 将 会 调用 JavaSparkContext 的 textFile 方法 ， 该 方法 会 把 集群 中 的 数据 加 
载 为 Java String 对 象 。 类 似 地 ， 用 newAPIHadoopFile 加 载 一 个 Parquet/Avro 文件 会 把 对 象 
加 载 为 Java Avro 对 象 。 


如 果 是 在 Python RDD 上 调用 API， 所 有 相关 代码 ( 即 Python 的 lambda 函数 ) 将 通过 
cloudpickle 进行 序列 化 并 分 发 到 执行 器 上 。 接 着 ， 代 码 的 序列 化 数据 由 Java 对 象 转 成 
Python 兼容 的 表示 形式 〈 即 pickle 对 象 ) 并 通过 一 个 管道 以 流 的 方式 传 给 执行 器 相关 的 
Python 解释 器 。 所 有 需要 Python 处 理 的 内 容 都 在 解释 器 中 执行 ， 结 果 数据 又 反 过 来 存储 
为 JVM 中 的 RDD (默认 为 pickle 对 象 ) 。 












































相 比 Scala，Python 对 可 执行 代码 序列 化 的 内 置 支持 不 算 强 大 。 因 此 PySpark 的 作者 使 用 
一 个 定制 化 模块 cloudpickle。cloudpickle 由 PiCloud 项 目 开 发 ， 不 过 PiCloud 现在 已 不 
活跃 了 。 
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11.2 Thunder 工 具 包 概况 和 安装 


Thunder 示例 和 文档 


Thunder 包 的 文档 和 教程 写 得 非常 好 。 下 面 的 示例 引 自 Thunder 教程 和 文档 
所 提供 的 数据 集 。 




















Thunder 是 Spark 上 的 一 个 的 Python 工具 集 ， 用 于 处 理 大 型 空间 /时间 数据 集 ( 即 大 型 多 
维和 矩阵 )。Thunder 大 量 使 用 NumPy 进行 矩阵 运算 ， 同 时 也 大 量 使 用 MLlib 工具 来 实现 某 
些 分 布 式 统计 技术 。 由 于 基于 Python， 所 以 Thunder 非常 灵活 而 且 用 户 很 广 。 在 接 下 来 的 
一 节 ， 我 们 将 介绍 Thunder API 并 利用 MLlib 的 K 均值 算法 实现 对 神经 轨迹 进行 聚 类 ， 这 
里 的 KK 均值 算法 实现 是 经 过 Thunder 和 PySpark 包装 过 的 版 本 。 安 装 Thunder 非常 简单 ， 
运行 pip install thunder-python 命令 即 可 ， 尽 管 必须 在 所 有 工作 市 点 上 安装 它 。 





安装 并 设置 完 SPARK_HOME 环境 之 后 ， 就 可 以 创建 PySpark shell 了 : 


$ export PYSPARK_DRIVER_PYTHON=ipython # 像 往常 一 样 推荐 
$ pyspark --master ... --num-executors ... 




















[...some logging output...] 
Welcome to 


1/ / 71/ 

AMV_V_ 1 _/ 

/_/._/\,////\\ version 2.0.2 
/_/ 


Using Python version 2.7.6 (default, Apr 9 2014 11:54:50) 
SparkContext available as sc. 


Running thunder version 0.5.0_dev 
A thunder context is available as tsc 


In [1]: 


11.3 ”用 Thunder 加 载 数 据 


Thunder 在 设计 的 时 候 特别 考虑 了 神经 影像 数据 集 ， 因 此 比较 适合 分 析 那 些 通 常 随时 间 变 
化 的 大 型 影像 数据 集 。 


我 们 先 加 载 样 例 数 据 集中 的 一 些 斑马 鱼 大 脑 图 像 。 这 些 样 例 数 据 来 自 Thunder 资料 库 ， 目 
录 为 S3:Wthunder-sample-data/images/fish/。 为 了 演示 方便 ， 本 章 示例 的 数据 集 只 是 原 数据 集 
的 很 小 一 部 分 。 要 了 解 其 他 (或 更 大 的 ) 数据 集 的 更 多 信息 ， 请 参阅 Thunder 文档 。 斑 马 
鱼 是 生物 学 研究 普遍 采用 的 模式 生物 ， 它 个 体 小 ， 繁 殖 快 ， 可 用 作 状 椎 动物 培育 的 模式 生 
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物 。 人 们 对 斑马 鱼 的 兴趣 也 源 自 它 超 快 的 党 殖 能 力 。 由 于 斑马 鱼 是 透明 的 ， 大 脑 不 大 ， 在 
神经 科学 研究 中 基本 上 可 以 对 其 整个 大 脑 摄 取 图 像 ， 而 且 这 些 图 像 的 分 辩 率 高 到 足以 区 分 
个 体 神经 元 的 和 程度。 下面 是 加 载 数据 集 的 代码 : 





























import thunder as td 

data = td.images.fromtif('/user/ds/neuro/fish', engine=sc) 上 
print data 

print type(data.values) 

print data.values._rdd 

Images 

mode: spark @ 

dtype: uint8 

shape: (20, 2, 76, 87) 

<class 'bolt.spark.array.BoltArraySpark'> © 
PythonRDD[2] at RDD at PythonRDD.scala:48 @ 


@ 请 注意 传递 sparkContext 对 象 的 方式 。Thunder 也 支持 使 用 同样 的 API 操作 本 地 文件 。 

@ 我 们 可 以 看 到 一 个 由 Spark 支持 的 Images 对 象 。 

日 底层 的 数据 容器 抽象 是 一 个 BoltArray。 该 项 目 为 本 地 数据 的 表示 和 Spark RDD 的 表示 
提供 了 抽象 。 

@ 底层 的 RDD 对 象 。 





这 创建 了 一 个 Images 对 象 ， 它 最 终 封 装 了 一 个 RDD， 它 可 以 通过 data.values.rdd 来 访 
问 。Images 对 象 对 外 也 提供 了 几 个 相似 的 相关 功能 〈 比 如 count、first 等 )。 在 Images 内 
部 ， 对 象 以 键 一 值 对 的 形式 存放 。 


print data.values._rdd.first() 


((0,), array([[[26, 26, 26, ..., 26, 26, 26], 
[26, 26, 26, ..., 26, 26, 26], 
[26, 26, 26, ..., 27, 27, 26], 


[26, 26, 26, ..., 27, 27, 26], 
[26, 26, 26, ..., 27, 26, 26], 
[25, 25, 25, ..., 26, 26, 26]], 


[[25, 25, 25, ..., 26, 26, 26], 
[25, 25 25, 7. 26, 26, 26], 
[26, 26, 26, ..., 26, 26, 26], 


~ 


~ 


[26, 26, 26, ..., 26, 26, 26], 
[26, 26, 26, ..., 26, 26, 26], 
[25, 25, 25, ..., 26, 26, 26]]], dtype=uint8)) 


~ 


键 (0,) 对 应 数据 集中 第 零 个 图 像 ( 按 数据 目录 的 字母 顺序 排列 ) ， 值 是 对 应 图 像 的 一 个 
NumPy 数组 。Thunder 中 所 有 的 核心 数据 类 型 最 终 都 是 键 - 值 对 的 Python RDD， 其 中 键 
是 某 种 元 组 ， 而 值 为 NumPy 数组 。 即 使 PySpark 通常 允许 异 构 集合 的 RDD，RDD 中 所 有 
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键 和 值 的 类 型 也 都 相同 。 由 于 这 种 同 构 性 ，Images 对 象 对 外 提供 了 描述 底层 维度 的 一 个 属 
性 .shape: 

















print data.shape 


(20, 2, 76, 87) 














这 段 代 码 描述 的 是 20 个 “图 像 ”， 其 中 每 个 图 像 都 是 一 个 2x76x 87 的 县 层 。 


























像素 、 体 元 和 又 层 

“像素 ”(pixel) 一 词 是 “图 像 元 素 ”(picture element) 两 个 词 构成 的 合成 词 。 数 字 图 
像 可 以 简单 建 模 为 二 维和 矩阵 ， 具 阵 中 每 个 元 素 即 为 一 个 像素 ， 其 值 代 表 颜 色 的 强度 
(一 张 彩色 图 片 需要 三 个 这 样 的 矩阵 来 表示 ， 分 别 代表 红色 、 绿 色 和 蓝 色 )。 但 大 脑 是 
三 维 的 ， 单 个 二 维 切面 很 难 捕捉 大 脑 的 活动 。 有 多 种 技术 可 以 处 理 这 个 问题 ， 有 的 将 
不 同 平面 上 的 多 个 二 维 图 像 堆 登 在 一 起 ( 即 一 个 z 登 层 )， 有 的 甚至 直接 生成 三 维 信 
息 (比如 光 场 显 微 技 术 ) 。 这 最 终 会 产生 一 个 三 维 的 强度 矩阵 ， 每 个 值 代表 一 个 立体 元 
素 或 体 元 。 同 样 ，Thunder 根据 特定 的 数据 类 型 也 把 所 有 图 像 建 模 成 二 维 或 三 维和 矩阵 ， 
并 且 能 够 识别 像 .tiff 这 样 的 文件 格式 ，.tiff 格式 能 原生 地 表示 三 维 登 层 。 

















上 日 Python 写 代码 的 一 个 特点 就 是 我 们 在 操作 RDD 时 能 轻松 进行 可 视 化 。 这 里 我 们 使 用 功 
E 强 大 的 matplotlib 工具 包 ( 见 图 11-2 ) 。 


Zh 


import matplotlib.pyplot as plt 

img = data.first() 

plt.imshow(img[:, :, 0], interpolation='nearest', aspect='equal', 
cmap='gray') 

















11-2: 原生 斑马 鱼 数据 的 一 个 切面 
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Images API 提供 了 强大 的 分 布 式 图 像 处 理 能 力 ， 比 如 对 每 个 图 像 进行 二 次 采样 (如 图 11-3 
所 示 ) : 


























subsampled = data.subsampLe((1，5，5)) © 

plt.imshow(subsampled.first()[:, :, 0], interpolation='nearest', 
aspect='equal', cmap='gray') 

print subsampled.shape 


(20, 2, 16, 18) 





@ 第 一 行 我 们 直接 对 3 个 维度 进行 采样 ， 这 里 只 用 了 一 行 代码 : 第 一 维 没有 做 二 次 采样 ， 
而 第 二 维和 第 三 维 是 每 5 个 值 取 一 个 。 注 意 这 是 一 个 RDD 操作 ， 所 以 该 行 代码 立即 返 
回 ， 只 有 等 到 出 现 RDD 行动 时 才 触 发 实际 的 计算 。 























图 11-3; 对 斑马 鱼 数据 进行 二 次 采样 得 到 的 一 个 切面 





虽然 分 析 图 像 集 合 对 某 些 操作 是 有 用 的 〈 比 如 对 图 像 进行 某 种 归 一 化 )， 但 它 很 难处 理 图 
像 之 间 的 时 间 关 系 。 














series = data.toseries() 


这 个 操作 把 数据 大 规模 重组 为 一 个 Series 对 象 。Series 是 一 个 键 - 值 对 的 RDD， 键 是 每 
个 图 像 的 坐标 元 组 (也 就 是 体 元 标识 符 )， 值 是 一 个 代表 时 间 序 列 的 一 维 NumPy 数组 : 








print series.shape 
print series.index 
print series.count() 
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(2, 76, 87, 20) 
[0 123 4 56 7 8 9101112 13141516 17 18 19] 
13224 





data 包含 20 个 带 有 维度 (76 x 87 x2) 的 图 像 ，series 包含 13 224 (76 x 87 x2) 个 长 度 为 
20 的 时 间 序 列 。series.index 属性 是 一 个 Pandas 风格 的 索引 ， 可 以 用 它 引 用 每 个 数组 。 因 
为 原始 图 像 是 三 维 的 ， 所 以 键 是 三 元 组 : 

















print series.vaLues._rdd.takeSampLe(FaLse，1)[0] 


((0, 50, 6), array([29, 29, 29, 29, 29, 29, 29, 29, 29, 29, 29, 29, 29, 
29, 29, 29, 29, 29, 29, 29], dtype=uint8)) 


Series API 提供 了 许多 时 序 运算 方法 ， 这 些 方 法 可 以 在 单个 时 间 序列 上 进行 计算 ， 也 可 以 
对 所 有 的 时 间 序 列 进行 计算 ， 比 如 : 





print series.max().values 


[[[[158 152 145 143 142 141 140 140 139 139 140 140 142 144 153 168 179 185 
185 182]]]] 


上 面 的 代码 在 每 个 时 间 点 上 计算 所 有 体 元 的 最 大 值 。 

















stddev = series.map(lambda s: s.std()) 
print stddev.values._rdd.take(3) 
print stddev.shape 


[CC0, 0, 0), array([ 0.4])), ((0, 0, 1), array([ 0.35707142]))] 
(2, 76, 87, 20) 








上 面 的 代码 计算 每 个 时 间 序 列 的 标准 差 并且 返 回 结果 RDD，RDD 中 保留 了 所 有 键 。 
也 可 以 在 本 地 将 Series 重新 包装 为 对 应 特定 形状 的 NumPy 数组 (这 里 为 2x76 x 87): 

















repacked = stddev.toarray() 

plt.imshow(repacked[:,:,0], interpolation='nearest', cmap='gray', 
aspect='equal') 

print type(repacked) 

print repacked.shape 


<type 'numpy.ndarray'> 
(2, 76, 87) 


这 时 我 们 就 可 以 用 同样 的 空间 关系 绘制 每 个 体 元 的 标准 差 (如 图 11-4 所 示 )。 应 该 注意 ， 
不 要 向 客户 端 返回 太 多 数据 ， 因 为 这 样 会 占用 很 多 带宽 和 内 存 资源 。 
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0 10 20 30 40 50 60 70 80 








图 11-4: 原始 斑马 鱼 数 据 中 每 个 体 元 的 标准 差 
同样 ， 可 以 通过 绘制 中 部 的 时 间 序 列 来 直接 观察 一 下 这 些 时 间 序 列 (如 图 11-5 所 示 ) : 








plt.plot(series.center().sample(50).toarray().T) 




















图 11-5: 中 部 的 时 间 序 列 的 50 个 随机 样本 子 集 


在 每 个 序列 上 应 用 任何 用 户 定义 函数 也 非常 容易 。 只 需 使 用 map 方法 ， 它 调用 底层 RDD 
的 .map() 方法 ， 对 底层 键 一 值 对 的 值 进行 处 理 。 



























































series.map(lambda x: x.argmin()) 
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Thunder 核 心 数 据 类 型 

更 一 般 地 说 ，Thunder 的 两 个 核心 数据 类 型 series 和 Images 都 继承 自 Data 类 型 ， 该 类 型 最 终 
包含 由 本 地 NumPy 数组 或 Spark RDD 支持 的 BoLtArray。Data 类 代表 键 - 值 对 的 RDD， 键 是 
语义 标识 符 〈 比 如 空间 坐标 元 组 ) ， 值 是 一 个 由 实际 值 组 成 的 NumPy 数组 。 比 如 ， 对 Images 
对 象 而 言 ， 键 可 以 是 一 个 时 间 点 ， 值 是 以 NumPy 格式 数组 存放 的 该 时 间 点 的 图 像 。 对 Series 
对 象 而 言 ， 键 可 以 是 一 个 相应 体 元 坐标 的 n 维 元 组 ， 值 是 表示 该 体 元 时 间 序 列 度量 的 一 维 
NumPy 数组 。series 中 所 有 数组 的 维度 必须 相同 。 


通常 ， 同 样 的 数据 集 既 可 表示 为 Images 对 象 也 可 表示 为 Series 对象， 这 两 个 对 象 之 间 可 
以 通过 shuffle 操作 (代价 可 能 非常 高 ) 进行 相互 转换 ( 跟 行 式 与 列 式 表示 相互 转换 类 似 )。 
































Thunder 的 Data 可 以 持久 化 为 一 组 图 像 ， 按 图 像 文件 名 的 字母 序 排序 ， 也 可 以 持久 化 为 一 组 
Series 对 象 的 二 元 一 维 数组 。 要 了 解 更 多 细节 ， 请 参考 文档 (http://docs.thunder-project.org) 。 








11.4 用 Thunder 对 神经 元 进行 分 类 

在 本 节 示 例 中 ， 我 们 将 使 用 开 均 值 算 法 对 不 同 的 斑马 鱼 时 间 序 列 进 行 聚 类 。 聚 类 之 后 ， 这 
些 时 间 序 列 将 变 成 几 个 大 类 ， 用 以 描述 不 同类 型 的 神经 行为 。 我 们 将 使 用 GitHub 资料 库 
上 存储 的 series 数据 ， 该 数据 比 之 前 我 们 使 用 的 图 像 数据 要 大 。 但 是 这 些 数据 的 空间 分 辩 
率 很 低 ， 不 足以 区 分 神经 元 个 体 。 


首先 我 们 来 加 载 数 据 : 
# 这 个 数据 集 可 以 在 ass 库 中 下 载 


images = td.images.frombinary( 
'/user/ds/neuro/fish-long', order='F', engine=sc) 

series = images.toseries() 

print series.shape 






































(76, 87, 2, 240) 











[ 0 1 2 % 4 5 6 Rls 234 235 236 237 238 239] 
结果 表明 图 像 的 维度 和 之 前 一 样 ， 但 时 间 点 由 20 个 变 成 了 240 个 。 为 了 得 到 最 好 的 聚 类 
结果 ， 我 们 要 对 特征 进行 归 一 化 。 


normalized = series.normalize(method='mean') 


现在 我 们 绘制 一 些 时 间 序列 图 来 看 看 这 些 时 间 序 列 的 情况 。 使 用 Thunder 可 以 在 RDD 上 随机 
采样 并 按 一 定 标 准 (比如 默认 的 最 小 标准 差 ) 对 集合 元 素 进 行 过 滤 。 为 了 选择 一 个 合适 的 国 
值 ， 首 先 来 计算 每 个 时 间 序 列 的 stddev， 然 后 对 10% 的 样本 值 绘制 直方 图 (如 图 11-6 所 示 ) : 


























stddevs = (normalized 
.map(Lambda s: s.std()) 
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.Sample(1000)) 
plt.hist(stddevs.values, bins=20) 





600 





500 





0.15 0.20 
stddev 








11-6: 体 元 标准 差分 布 





知道 了 标准 差 ， 我 们 选择 闷 值 为 0.1， 以 便 能 得 到 大 部 分 “活跃 ”的 序列 〈 见 
plt.plot( 
normalized 
.filter(lambda s: s.std() >= 0.1) 
.SampLe(50) 
.VaLues.T) 


图 11-7) : 















































现在 我 们 对 数据 有 了 一 定 了 解 ， 最 Ra 类 成 不 同行 为 模式 ， 使 用 MLlib 的 K 均值 


功能 。 下 面 对 多 个 上 值 运行 K 均 从 














from pyspark.mllib.clustering import KMeans 
ks = [5, 10, 15, 20, 30, 50, 100, 200] 
models = [] 

for k in ks: 


models.append(KMeans.train(normalized.values._rdd.values(), k)) 











Tn 次 计算 两 个 简单 的 误差 指标 。 第 一 个 指标 简单 地 对 时 间 序 列 到 签 中 心 的 欧 氏 距 
离 求 和 。 个 指标 是 KMeansModel 对 象 的 一 个 内 置 指标 ; 


def model_error_1(model): 
def series error(series): 
cluster_id = model.predict(series) 
center = model.centers[cluster_id] 
diff = center - series 
return diff.dot(diff) ** 0.5 


return (normalized 
.map(series_error) 
.toarray() 


.Sum()) 


def model_error_2(model): 
return model.computeCost(normalized.values._ 


我 们 对 每 个 上 值 都 计算 这 两 个 指标 ， 并 将 结果 绘制 成 


import numpy as np 


rdd.values()) 





图 








11-8: 








errors_1 = 
errors_2 = 


plt.plot( 


np.asarray(map(model_error_1, models)) 
np.asarray(map(model_error_2, models)) 


ks, errors_1 / errors_1.sum(), 'k-o', 
ks, errors 2 / errors 2.sum(), 'b:v') 
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图 11-8: 以 上 为 变量 的 K 均值 误差 指标 函数 ( 圆 点 代表 model_error_1， 三 角形 代表 model_error_2) 
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我 们 预计 这 些 指标 通常 是 大 的 单调 函数 ， 曲 线 看 起 来 在 好 20 处 有 一 个 明显 的 拐点 。 


我 们 把 从 数据 中 学 习 得 到 的 类 簇 中 心 画 出 来 ， 如 图 11-9 所 示 : 





model20 = models[3] 
plt.plot(np.asarray(model20.centers).T) 


现在 
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11-9: 上 广 20 时 的 模型 中 心 


给 不 同类 簇 的 体 元 分 配 不 同 颜 色 并 绘制 图 像 本 身 也 很 简单 ， 结 果 如 图 11-10 所 示 : 


import seaborn as sns 
from matplotlib.colors import ListedColormap 
cmap_cat = ListedColormap(sns.color_palette("hls", 10), name='from_list') 
by_cluster = normalized.map(lambda s: model20.predict(s)).toarray() 
plt.imshow(by_cluster[:, :, 0], interpolation='nearest', 

aspect='equal', cmap='gray') 











0 10 20 30 40 








图 11-10: 不 同类 艇 的 体 元 分 配 不 同 颜色 的 三 维 像素 图 
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从 图 中 显然 可 以 看 出 ， 学 习 模 型 得 到 的 聚 类 一 定 程 度 上 刻画 了 斑马 鱼 大 脑 的 解剖 结构 。 如 
有 果 原 始 数据 分 辩 率 高 到 足以 看 清 亚 细胞 的 结构 ， 我 们 就 可 以 先 对 体 元 进行 玉 均 值 聚 类 ， 甚 
中 大 等 于 图 像 数据 中 神经 元 的 估计 个 数 。 然 后 ， 再 定义 每 个 神经 元 的 时 间 序 列 ， 而 这 些 时 
间 序 列 可 再 用 来 聚 类 以 确定 神经 元 的 不 同 功能 类 型 。 




















11.5 小结 


Thunder 项 目 还 比较 年 轻 ， 但 功能 已 经 比较 丰富 。 除 了 时 间 序 列 统计 和 聚 类 ， 它 还 包含 矩阵 
分 解 、 回 归 /分 类 和 可 视 化 模块 。Thunder 项 目的 文档 和 教程 写 得 非常 好 ， 涵 盖 的 功能 也 很 
多 。 如 果 想 了 解 Thunder 的 使 用 ， 可 以 看 一 下 Thunder 作者 在 2014 年 7 月 的 Nature Methods 
杂志 上 发 表 的 文章 “Mapping brain activity at scale with cluster computing” (http://www.nature. 
com/nmeth/journal/v1l1/n9/abs/nmeth.3041 .html ) 。 
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态 系统 开发 了 可 扩展 的 基因 组 学 和 免疫 学 技术 。 


肖 因 .欧文 (Sean Owen)，Cloudera 的 数据 科学 总 监 。 他 是 Apache Spark 的 代码 提交 者 
和 项 目 管理 委员 会 委员 ， 也 曾 是 Apache Mahout 的 代码 提交 者 。 


乔 希 . 威 尔 斯 (Josh Wills)，Slack 公司 的 数据 工程 主管 ， 同 时 也 是 Apache Crunch 项 目的 
创始 人 ， 曾 经 写 过 关于 数据 科学 家 的 推 文 。 


封面 介绍 


本 书 封面 上 的 动物 游 储 是 世界 上 最 常见 的 掠 食 鸟 类 之 一 ， 地 球 上 除了 南极 洲 之 外 都 可 以 见 
到 它 的 身影 。 游 储 的 栖息 地 非常 广泛 ， 包 括 城市 、 热 带 、 沙 漠 和 营 原 。 有 些 游 华 会 从 越冬 
地 迁徙 很 长 的 距离 到 达 夏 李 栖 息 地 。 





游 储 是 世界 上 飞行 速度 最 快 的 鸟 类， 其 俯冲 速度 达到 每 小 时 320 公里 。 游 储 的 食物 是 其 他 
鸟 类 ， 比 如 鸣 鸟 和 野鸭 ， 同 时 也 吃 蝙 蝠 ， 和 它们 可 以 在 半空 中 抓 住 猎 物 。 


成 年 游 集 的 翅膀 为 蓝 灰 色 ， 背 部 为 黑 褐 色 ， 腹 部 为 米色 且 带 有 褐 双 斑点 ， 脸 部 为 白色 ， 面 
类 上 有 黑色 条 纹 。 游 华 的 鸟 嘴 呈 钓 形 ， 并 且 有 一 双 有 力 的 爪子 。 游 华 的 名 字 来 自 拉丁 语 
“peregrinus”， 意 思 是 “盘旋 ”。 游 华 深 受 放 座 者 的 喜爱 ， 数 百年 来 都 出 现在 放 座 运动 中 。 


O’Reilly 用 在 封面 上 的 很 多 动物 都 是 濒危 物种 ， 它 们 全 都 对 这 个 世界 很 重要 。 如 果 你 想 帮 


助 它们 ， 请 访问 animals.oreilly.com 。 


封面 图 片 源 自 Lydekker 所 著 的 Royal Natural History。 
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回复 “Spark” 查看 相关 书 单 


微 博 连 接 


关注 @ 图 灵 教 育 每 日 分 享 |T 好 书 


加 加 


二 


全 


QQ 连接 


灵 读 者 官方 群 I: 218139230 
灵 读 者 官方 群 I[: 164939616 





图 灵 社 区 


iTuring.cn 





U 


版 , 电子 书 ,《 码 农 》 杂 志 , 图 灵 访 谈 








OREILLY 


Spark 高 级 数据 分 析 (第 2 版 ) 


作为 计算 框架 ，Spark 速 度 快 ， 开 发 简单 ， 能 同时 兼顾 批 处 理 和 实时 数据 
分 析 ， 因 此 很 快 被 广大 企业 级 用 户 所 采纳 ， 并 随 着 近年 人 工 智 能 的 崛起 
而 成 为 分 析 和 挖掘 大 数据 的 重要 得 力 工具 。 


本 书 由 业内 知名 数据 科学 家 执笔 ， 通 过 丰富 的 示例 展示 了 如 何 结合 
Spark、 统 计 方 法 和 真实 世界 数据 集 来 解决 数据 分 析 问 题 ， 既 涉及 模型 的 
构建 和 评价 ， 也 涵盖 数据 清洗 、 数 据 预 处 理 和 数据 探索 ， 并 描述 了 如 何 
将 结果 变 为 生产 应 用 ， 是 运用 Apache Spark 进 行 大 数据 分 析 和 处 理 的 实 
战 宝 典 。 


第 2 版 根据 新 版 Spark 最 佳 实践 ， 对 样 例 代 码 和 所 用 资料 做 了 大 量 更 新 。 


本 书 涵盖 模式 如 下 : 

国 音乐 推荐 和 Audioscrobbler 数 据 集 

四 用 决策 树 算法 预测 森林 植被 

是 基于 K 均 值 聚 类 进行 网 络 流量 异常 检测 

加 基于 潜在 语义 算法 分 析 维 基 百 科 

加 用 GraphX 分 析 伴生 网 络 

目 对 纽约 出 租车 轨迹 进行 空间 和 时 间 数 据 分 析 
加 通过 蒙特 卡 罗 模 拟 来 评估 金融 风险 

加 基因 数据 分 析 和 BDG 项 目 

国 用 PySpark 和 Thunder 分 析 神 经 图 像 数据 





“本 书 是 大 数据 市 场 撼 楚 Cloudera 
公司 经 验 总 结 ， 通 过 案例 分 析 详 
尽 展现 了 解决 问题 的 全 过 程 ， 自 
第 1 版 出 版 后 一 直 位 列 亚马逊 网 
站 大 数据 分 析 类 图 书 前 茅 。 中 文 
版 的 问世 ， 实 在 是 国内 技术 圈 的 
幸 事 。” 

一 一 苗 凯 翔 
思科 中 国 研发 公司 CTO 
前 Cloudera 公 司 副 总 裁 





桑 迪 ,里 扎 (Sandy Ryza) ，Spark 
项 目 代 码 提 交 者 、Hadoop 项 目 管 
理 委员 会 委员 ，Time Series for Spark 
项 目 创始 人 。 曾 任 Cloudera 公 司 高 
级 数据 科学 家 ， 现 就 职 于 Remix 公 司 
从 事 公共 交通 算法 开发 。 

于 里 . 莱 瑟 森 (Uri Laserson) ，MIT 
博士 毕业 ， 致 力 于 用 技术 解决 遗传 
学 问题 ， 曾 利用 Hadoop 生 态 系统 
开发 了 可 扩展 的 基因 组 学 和 免疫 学 
技术 。 目 前 是 西奈 山 伊 坎 医学 院 遗 
传 学 助理 教授 ， 曾 任 Cloudera 公 司 
核心 数据 科学 家 。 

肖 恩 ， 欧文 (Sean Owen) ，Spark、 
Mahout 项 目 代 码 提 交 者 ，Spark 项 
目 管理 委员 会 委员 。 现 任 Cloudera 
公司 数据 科学 总 监 。 

乔 希 . 威 尔 斯 (Josh Wills) ，Crunch 
项 目 发 起 人 ， 现 任 Slack 公 司 数据 工 
程 主管 。 曾 任 Cloudera 公 司 高 级 数 
据 科 学 总 监 。 
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